5 sai sót phổ biến trong báo cáo kết quả phân tích
GS. Nguyễn Văn Tuấn,
Bài viết trên FB tác giả: https://www.facebook.com/drnguyenvtuan/posts/260636927716965
Hôm qua, tôi nhận được email của một độc giả hỏi tôi loạt bài về những sai sót thường gặp trong phân tích dữ liệu. Tôi cũng không còn bài đó, vì website đã bị đánh sập khá lâu rồi. Nhưng nhân dịp câu hỏi này và nhân dịp đang phụ trách biên tập một bài cho PLoS ONE, tôi muốn chia sẻ cùng các bạn 5 sai sót phổ biến trong cách trình bày kết quả phân tích dữ liệu.
Sai sót 1: Báo cáo trị số P không chính xác
Có khá nhiều bài báo trình bày kết quả phân tích kèm theo trị số P được viết theo kiểu như "P < 0.05", "P < 0.01", hoặc "NS". Có lẽ "NS" ở đây có nghĩa là "not significant" hay "non-significance", tức không có ý nghĩa thống kê. Tất cả những cách báo cáo này là sai. Ngày xưa, vì không có phương tiện tính toán như bây giờ, nên người ta "lười biếng" viết như thế.
Còn ngày nay, chúng ta phải viết trị số P chính xác hơn. Thay vì viết P < 0.05, phải viết là P = 0.01. Nên nhớ mẫu tự P nên viết nghiêng. Ngoài ra, chỉ cần viết chính xác đến 3 số lẻ là đủ (ví dụ như P = 0.016), chứ không cần viết quá rườm rà (như P = 0.0000012).
Sai sót 2: Dùng dấu nối khoảng tin cậy 95% không đúng qui ước
Khoảng tin cậy 95% (KTC95%) có phần dưới và phần trên. Rất nhiều bài báo y học báo cáo hai phần này bằng cách dùng các dấu như gạch nối "-" Như "0.887 (0.663-1.185)") , dấu phẩy ",", thậm chí dấu chấm phẩy ";". Nhưng tất cả cách dùng đó đều không đúng qui ước. Dùng dấu "-" thường dễ gây hiểu lầm và nhập nhằng với dấu trừ. Dùng dấu phẩy thì có thể bị hiểu lầm số thập phân. Dùng dấu chấm phẩy thì sai hoàn toàn.
Cách dùng đúng theo qui ước là chữ "to". Một ví dụ tiêu biểu là viết như sau: "relative risk, 1.91; 95% confidence interval [CI], 1.75 to 2.09)." Chú ý dấu phẩy là viết sau relative risk, odds ratio, hazard ratio. Ngoài ra, chú ý trong cách viết chuẩn đó, dấu chấm phẩy là để thêm khoảng tin cậy 95%. Đây là cách viết chuẩn của Tập san New England Journal of Medicine.
Sai sót 3: Báo cáo các chỉ số thống kê hơn 2 số lẻ
Thỉnh thoảng đọc báo cáo từ Việt Nam thấy các đồng nghiệp hay trình bày những chỉ số như odds ratio (OR) và relative risk (RR) quá chính xác. Ví dụ như có báo cáo như sau: "BNP difference: OR = 0.998 (0.997–0.999)." Đây là một cách trình bày về độ chính xác ... không cần thiết. Thật ra, kết quả của ví dụ này có vẻ có vấn đề. Thường, chỉ cần hai số lẻ là đủ, như "OR, 0.76; 95% CI, 0.56 to 0.89" là đúng qui ước.
Sai sót 4: Dùng "mean ± SD" không thích hợp
Để mô tả một đại lượng liên tục, chúng ta hay dùng số trung bình (mean) và độ lệch chuẩn (standard deviation hay viết tắt là SD). Nhưng hai chỉ số này chỉ thích hợp cho các biến tuân theo luật phân bố chuẩn. Khi biến số không tuân theo luật phân bố chuẩn thì cách báo cáo mean ± SD được xem là một sai sót.
Ví dụ như có báo cáo viết như sau: "The mean ± SD of testosterone was 0.92 ± 0.65 nmol/L."
Có hai cái sai sót trong câu trên. Sai sót thứ nhất là biến số không tuân theo luật phân bố chuẩn, vì SD gần bằng với số trung bình. Chẳng lẽ dựa vào báo cáo trên, giá trị của testosterone có thể thấp đến -0.38 nmol/L? Vô lí. Cái sai thứ hai là không nên dùng dấu ± ở đây. Cách dùng đúng là dấu () chứ không phải ±.
Đối với biến không tuân theo luật phân bố chuẩn, cách mô tả thích hợp là trung vị (median) và bách phân vị 25% đến 75%. Ví dụ: "The median of total testosterone was 0.76 nmol/L, with interquartile range being from 0.15 to 1.12 nmol/L."
Sai sót 5: Khoe software thống kê
Rất nhiều bài báo khoa học mà trong phần phương pháp phân tích hay viết theo kiểu "Dữ liệu được phân tích bằng phần mềm SPSS phiên bản 12.1". Đây là một cách viết tiêu biểu của người không biết mình làm gì hoặc thiếu thông tin. Vấn đề không phải là phân tích bằng "phần mềm" gì, mà là phương pháp phân tích là gì. Cái software chỉ là nhu liệu, là công cụ để chúng ta phân tích, chứ nó không ra lệnh chúng ta phải làm gì (chúng ta ra lệnh cho nó thì đúng hơn). Do đó, câu báo cáo trên là hoàn toàn vô nghĩa. Ngoài ra, ở Việt Nam, các software đắt tiền như SPSS hay Stata thì đa phần là dùng lậu, chứ không có bản quyền. Báo cáo dùng software lậu là không nên.
Vả lại, trong khoa học, dùng các software loại có "menu" như SPSS không được đồng nghiệp đánh giá cao. Người ta có câu (chỉ là đùa thôi): biết dùng Excel là tồi; biết dùng SPSS là khá; biết dùng SAS hay Stata là thông minh; còn biết dùng R là ... thiên tài. :-) Vậy bạn muốn thuộc nhóm nào?
Đó là 5 sai sót tôi hay thấy khi đọc và biên tập các bài báo khoa học, mà tôi nghĩ rất dễ tránh. Kinh nghiệm cá nhân tôi cho thấy những sai sót này hiện diện ở nhiều đồng nghiệp, từ Âu Mĩ sang đến Á châu, chứ chẳng phải ở mấy nước đang phát triển. Ngay cả tôi và nhóm của tôi cũng từng phạm sai sót như thế, mà có khi tập san họ không nhắc nhở. Nhưng bây giờ thì các bạn đã biết sai và tại sao sai, thì lần sau nhớ không phạm sai sót nữa.
Mai mốt sẽ viết tiếp những sai sót về phân tích ...
Nhận xét