HỒI QUY LOGISTICS
Nội dung các bài viết về logistic có 5 phần bao gồm:
- Bài 1: Hồi logistics
đơn
- Bài 2: Hồi qui
logistics đa biến
- Bài 3: Nhiễu, tương
tác, trung gian
- Bài 4: Đánh giá mô hình
- Bài 5: Một số vấn đề liên
quan
Khi phân tích số liệu, thông thường là muốn tìm hiểu mối liên quan giữa hai hoặc nhiều
biến. Ví dụ: • Mối liên
quan giữa tiêm ph ng cúm và mắc cúm • Mối liên
quan giữa hút thuốc lá và ung thư phổi - Bản chất và mối quan hệ giữa các biến
có thể được đánh giá qua phân tích hồi quy.
Như chúng ta biết việc quyết định sử dụng mô hình phụ thuộc lớn
vào biến đầu ra. Chúng ta có các dạng mô hình ứng với biến đầu ra (outcome) hay
gọi là biến phụ thuộc sau:
- Biến định lượng: Sử dụng
mô hình hồi quy đa biến
- Biến nhị phân: sử dụng
mô hình hồi quy logistics.
- Nếu phân tích với 1 một
biến độc lập: sử dụng hồi quy đơn biến
- Nếu phân tích với ≥2
biến độc lập: sử dụng mô hình hồi quy đa biến.
- Biến đầu ra được đo lặp
lại nhiều lần: phân tích sống còn
- Biến …
Vì vậy bài viết này chỉ xoay quanh mô hình hồi quy logistics. Được
viết dựa trên bài giảng khóa học Hồi quy logistic ở trường ĐH YTCC HN
Nội dung 1:
Ứng dụng hồi quy logistic và một số nội dung liên quan.
Ứng dụng của mô hình hồi quy logistics:
1. Phân tích mối
quan hệ giữa biến độc lập và biến phụ thuộc.
Ví
dụ: Mối liên quan giữa ung thư phổi và hút thuốc lá
2. Dự đoán các giá trị của các biến
phụ thuộc (y) dựa trên các giá trị của các độc lập (x1, x2,…xk). Ví dụ: dự báo
nguy cơ mắc K phổi ở người hút thuốc.
3. Khống chế yếu tố nhiễu (hay
dùng) 4. Xem xét ảnh hưởng của các biến độc lập lên biến phụ thuộc
Biến đầu ra (outcome)
là biến nhị phân (bianary)
• Là một biến
nhị phân, biến đầu ra chỉ có thể nhận giá trị 0 hoặc 1. • Thông thường,
giá trị 1 để chỉ sự “thành công” hoặc đầu
ra cần quan tâm, và 0 là giá trị “thất bại”.
• Ý nghĩa của
giá trị nhị phân Y là tỷ lệ biến đầu ra
nhận giá trị p.
Ví dụ:
Nghiên cứu bệnh BPD ở trẻ: Gồm 223 trẻ trong quần thể trẻ sơ sinh nhẹ cân, 76
trẻ được chẩn đoán là mắc bệnh BPD, một dạng bệnh mãn tính ở phổi. Và 147 trẻ
không bị bệnh.
Vậy: “Dự đoán tốt nhất” là liệu một trẻ
sơ sinh với đặc điểm là sơ sinh nhẹ cân liệu có khả năng mắc BDP với xác suất p
= 76/223 = 0,341? Tuy nhiên việc ảnh hưởng
tới 0.341 được giả thuyết là sự đóng góp từ cân nặng như ở người mẹ; trẻ sơ
sinh (cân nặng của trẻ).
Kết luận 1
Việc xét 1 yếu tố ảnh hưởng hay 1 biến độc lập chưa thể quy kết
đến xác suất xảy ra sự kiện. Đây là giả thuyết cho việc xây dựng mô hình đa biến
Giả định và
điều kiện xây dựng mô hình
Trước khi đi vào kỹ thuật, chúng ta cần 1 số điều kiện trước lúc
quyết định sử dụng nó hay không:
-
Không cần giả định như hồi quy tuyến tính: về tính
chuẩn hay tuyến tinh hay phương sai đồng nhất.
-
Số đối tượng tối thiểu cho một biến độc lập trong mô
hình là 10 (Hosmer & Lemeshow), nhiều nhà NC khuyến cáo nên có 20-40 quan
sát/ biến.
-
Tỷ số số mẫu/biến – hay được dùng là 20:1 cho hồi qui logistics với
phương pháp enter – là 50:1 cho
hồi qui logistics với phương pháp stepwise
Hồi quy đơn
y =
ln(Odds) = ln[p/(1- p)] = α + βx + ε
-
Tỷ số số
chênh (OR) = Odds của nhóm bệnh/ Odds của nhóm không bệnh = (a/b)/(c/d) = ad/
bc
OR > 1:
phơi nhiễm là yếu tố nguy cơ
OR = 1: không có mối liên quan giữa phơi nhiễm và bệnh
OR < 1: phơi nhiễm là yếu tố bảo vệ
Các phương pháp đưa biến
vào mô hình đa biến
- Có 03 phương pháp để đưa biến vào mô hình hồi qui (đa biến) Đưa
vào đồng thời: Các biến đưa vào 1 lúc
- Phân cấp: các biến cần khống chế được đưa vào mô hình trước các
biến dự báo được quan tâm
- Stepwise: Các biến được chọn theo thứ tự mức độ đóng góp có ý
nghĩa thống kê
Kết luận 2: Việc đưa biến vào mô hình phụ thuộc
vào kinh nghiệm của nhà nghiên cứu. Bởi không có phương pháp nào là tốt nhất
Ví dụ
Bộ số liệu:
chilumba.dta
Ø Biến phụ thuộc: Bệnh phong (có-không)
Ø Biến độc lập
chính: Tiêm vắc xin BGC
Giả thuyết thống
kê:
·
Có mối liên quan giữa
việc tiêm vắc xin BCG và mắc bệnh phong không?
·
Nguy cơ mắc phong ở
những người không tiêm vắc xin/ có tiêm vắc xin?
•
Các câu hỏi cần quan tâm:
– Có
sai số ngẫu nhiên không: KHÔNG do p<0 span=""> Có sai số thông tin không: KHÔNG do bệnh Phong dễ chẩn
đoán, sẹo BCG dễ phát hiện 0>
– Sai
số chọn mẫu không: Xem lại thiết kế NC
– Có
yếu tố nhiễu hay không: So sánh OR thô và OR từng tầng
• Nếu
có 1 yếu tố gây nhiễu chỉ cần dùng phân tầng và sử dụng OR hiệu chỉnh
•
Khi có nhiều hơn 1 yếu tố gây nhiễu thì dùng hồi qui logistics đa biến
MÔ HÌNH HỒI QUY LOGISTICS ĐA BIẾN
• Hồi
qui logistic đơn với biến độc lập là – Danh
mục (nhiều hơn 2 nhóm) – Thứ
bậc – Định lượng
• Hồi
qui logistic đa biến – Xây
dựng mô hình – Các phương pháp đưa
biến vào mô hình – Lựa
chọn mô hình
Nhận xét