Chuyển đến nội dung chính

Visitors (statistics)

GS. Nguyễn Văn Tuấn: 5 sai sót phổ biến trong báo cáo kết quả phân tích

5 sai sót phổ biến trong báo cáo kết quả phân tích
GS. Nguyễn Văn Tuấn,
Bài viết trên FB tác giả: https://www.facebook.com/drnguyenvtuan/posts/260636927716965


Hôm qua, tôi nhận được email của một độc giả hỏi tôi loạt bài về những sai sót thường gặp trong phân tích dữ liệu. Tôi cũng không còn bài đó, vì website đã bị đánh sập khá lâu rồi. Nhưng nhân dịp câu hỏi này và nhân dịp đang phụ trách biên tập một bài cho PLoS ONE, tôi muốn chia sẻ cùng các bạn 5 sai sót phổ biến trong cách trình bày kết quả phân tích dữ liệu.
Sai sót 1: Báo cáo trị số P không chính xác
Có khá nhiều bài báo trình bày kết quả phân tích kèm theo trị số P được viết theo kiểu như "P < 0.05", "P < 0.01", hoặc "NS". Có lẽ "NS" ở đây có nghĩa là "not significant" hay "non-significance", tức không có ý nghĩa thống kê. Tất cả những cách báo cáo này là sai. Ngày xưa, vì không có phương tiện tính toán như bây giờ, nên người ta "lười biếng" viết như thế.
Còn ngày nay, chúng ta phải viết trị số P chính xác hơn. Thay vì viết P < 0.05, phải viết là P = 0.01. Nên nhớ mẫu tự P nên viết nghiêng. Ngoài ra, chỉ cần viết chính xác đến 3 số lẻ là đủ (ví dụ như P = 0.016), chứ không cần viết quá rườm rà (như P = 0.0000012).
Sai sót 2: Dùng dấu nối khoảng tin cậy 95% không đúng qui ước
Khoảng tin cậy 95% (KTC95%) có phần dưới và phần trên. Rất nhiều bài báo y học báo cáo hai phần này bằng cách dùng các dấu như gạch nối "-" Như "0.887 (0.663-1.185)") , dấu phẩy ",", thậm chí dấu chấm phẩy ";". Nhưng tất cả cách dùng đó đều không đúng qui ước. Dùng dấu "-" thường dễ gây hiểu lầm và nhập nhằng với dấu trừ. Dùng dấu phẩy thì có thể bị hiểu lầm số thập phân. Dùng dấu chấm phẩy thì sai hoàn toàn.
Cách dùng đúng theo qui ước là chữ "to". Một ví dụ tiêu biểu là viết như sau: "relative risk, 1.91; 95% confidence interval [CI], 1.75 to 2.09)." Chú ý dấu phẩy là viết sau relative risk, odds ratio, hazard ratio. Ngoài ra, chú ý trong cách viết chuẩn đó, dấu chấm phẩy là để thêm khoảng tin cậy 95%. Đây là cách viết chuẩn của Tập san New England Journal of Medicine.
Sai sót 3: Báo cáo các chỉ số thống kê hơn 2 số lẻ
Thỉnh thoảng đọc báo cáo từ Việt Nam thấy các đồng nghiệp hay trình bày những chỉ số như odds ratio (OR) và relative risk (RR) quá chính xác. Ví dụ như có báo cáo như sau: "BNP difference: OR = 0.998 (0.997–0.999)." Đây là một cách trình bày về độ chính xác ... không cần thiết. Thật ra, kết quả của ví dụ này có vẻ có vấn đề. Thường, chỉ cần hai số lẻ là đủ, như "OR, 0.76; 95% CI, 0.56 to 0.89" là đúng qui ước.
Sai sót 4: Dùng "mean ± SD" không thích hợp
Để mô tả một đại lượng liên tục, chúng ta hay dùng số trung bình (mean) và độ lệch chuẩn (standard deviation hay viết tắt là SD). Nhưng hai chỉ số này chỉ thích hợp cho các biến tuân theo luật phân bố chuẩn. Khi biến số không tuân theo luật phân bố chuẩn thì cách báo cáo mean ± SD được xem là một sai sót.
Ví dụ như có báo cáo viết như sau: "The mean ± SD of testosterone was 0.92 ± 0.65 nmol/L."
Có hai cái sai sót trong câu trên. Sai sót thứ nhất là biến số không tuân theo luật phân bố chuẩn, vì SD gần bằng với số trung bình. Chẳng lẽ dựa vào báo cáo trên, giá trị của testosterone có thể thấp đến -0.38 nmol/L? Vô lí. Cái sai thứ hai là không nên dùng dấu ± ở đây. Cách dùng đúng là dấu () chứ không phải ±.
Đối với biến không tuân theo luật phân bố chuẩn, cách mô tả thích hợp là trung vị (median) và bách phân vị 25% đến 75%. Ví dụ: "The median of total testosterone was 0.76 nmol/L, with interquartile range being from 0.15 to 1.12 nmol/L."
Sai sót 5: Khoe software thống kê
Rất nhiều bài báo khoa học mà trong phần phương pháp phân tích hay viết theo kiểu "Dữ liệu được phân tích bằng phần mềm SPSS phiên bản 12.1". Đây là một cách viết tiêu biểu của người không biết mình làm gì hoặc thiếu thông tin. Vấn đề không phải là phân tích bằng "phần mềm" gì, mà là phương pháp phân tích là gì. Cái software chỉ là nhu liệu, là công cụ để chúng ta phân tích, chứ nó không ra lệnh chúng ta phải làm gì (chúng ta ra lệnh cho nó thì đúng hơn). Do đó, câu báo cáo trên là hoàn toàn vô nghĩa. Ngoài ra, ở Việt Nam, các software đắt tiền như SPSS hay Stata thì đa phần là dùng lậu, chứ không có bản quyền. Báo cáo dùng software lậu là không nên.
Vả lại, trong khoa học, dùng các software loại có "menu" như SPSS không được đồng nghiệp đánh giá cao. Người ta có câu (chỉ là đùa thôi): biết dùng Excel là tồi; biết dùng SPSS là khá; biết dùng SAS hay Stata là thông minh; còn biết dùng R là ... thiên tài. :-) Vậy bạn muốn thuộc nhóm nào?
Đó là 5 sai sót tôi hay thấy khi đọc và biên tập các bài báo khoa học, mà tôi nghĩ rất dễ tránh. Kinh nghiệm cá nhân tôi cho thấy những sai sót này hiện diện ở nhiều đồng nghiệp, từ Âu Mĩ sang đến Á châu, chứ chẳng phải ở mấy nước đang phát triển. Ngay cả tôi và nhóm của tôi cũng từng phạm sai sót như thế, mà có khi tập san họ không nhắc nhở. Nhưng bây giờ thì các bạn đã biết sai và tại sao sai, thì lần sau nhớ không phạm sai sót nữa.
Mai mốt sẽ viết tiếp những sai sót về phân tích ...

Nhận xét

Bài đăng phổ biến từ blog này

Phần mềm dinh dưỡng tính khẩu phần ăn - Hướng dẫn phần mềm Vietnam Eiyokun

bạn muốn biết bạn đã ăn bao nhiêu kcal protit, lipip, gluxit, bao nhiêu g vitamin và vô số chất dinh dưỡng khác trong bữa ăn hằng ngày? làm thế nào để tính được 1 người nặng 100 kg cao 1m80 mỗi ngày cần bao nhiêu protit, lipip, gluxit? 1 công việc quá đơn giản đối với 1 nhà dinh dưỡng chuyên nghiệp. vấn đề là chúng ta thường là các nhà dinh dưỡng không chuyên. nhưng với phần mềm Vietnam Eiyokun tất cả chúng ta đều trở thành những nhà bán chuyên nghiệp. các bạn download hướng dẫn tại đây Bản cài đặt tại đây . pass mở file là itcchue code là A020400312

Các phép tính đơn giản ứng dụng trong SPSS - Lệnh Compute

Xin nhắc lại đây là những bài viết ở mức độ hướng dẫn cơ bản và mang tính chất cá nhân nên không thể tránh sai sót. Chỉ là mang tính chất xây dựng nguồn tài liệu của YTCC Huế Chủ đề hôm nay là thực hiện các phép tính cơ bản: Đơn giản muốn tính BMI trong SPSS. Bạn làm thế nào, trong khi đã có dữ kiện là Cân nặng, chiều cao (cm). BMI = (Cân nặng/(Chiều cao* chiều cao)*10000) Mô tả bằng hình ảnh trong SPSS. H1:  H2 Bạn trở lại cửa sổ Variable View sẽ thấy 1 biến mới "BMI" xuất hiện. Nó là kết quả của việc thực hiện thuât toán trên. Xin lỗi là công thức trên thiếu 1 dấu ")" cuối cùng trong hình 2. Thks đã đọc TBT Ytcchue.blogspot.com

Recode – mã hoá lại biến trong Stata

Lệnh recode giúp ta mã hoá lại các giá trị của biến theo những điều kiện được đưa ra. Giá trị nào không phù hợp với biểu thức điều kiện sẽ không bị thay đổi, ngoại trừ phù hợp với những điều kiện kèm theo. Câu lệnh như sau: recode danh sách biến (biểu thức điều kiện) [biểu thức điều kiện] [if] [in] [, tuỳ chọn]