Chuyển đến nội dung chính

Visitors (statistics)

HỒI QUY LOGISTICS: Giới thiệu

          HỒI QUY LOGISTICS
Nội dung các bài viết về logistic có 5 phần bao gồm:
  • Bài 1: Hồi logistics đơn
  • Bài 2: Hồi qui logistics đa biến
  • Bài 3: Nhiễu, tương tác, trung gian
  • Bài 4: Đánh giá mô hình
  • Bài 5: Một số vấn đề liên quan

Giới thiệu về hồi quy logistic
Khi phân tích số liệu, thông thường là  muốn tìm hiểu mối liên quan giữa hai hoặc nhiều biến.  Ví dụ:  • Mối liên quan giữa tiêm ph ng cúm và mắc cúm • Mối liên quan giữa hút thuốc lá và ung thư phổi - Bản chất và mối quan hệ giữa các biến có thể được đánh giá qua phân tích hồi quy.
Như chúng ta biết việc quyết định sử dụng mô hình phụ thuộc lớn vào biến đầu ra. Chúng ta có các dạng mô hình ứng với biến đầu ra (outcome) hay gọi là biến phụ thuộc  sau:
  • Biến định lượng: Sử dụng mô hình hồi quy đa biến
  • Biến nhị phân: sử dụng mô hình hồi quy logistics.
    • Nếu phân tích với 1 một biến độc lập: sử dụng hồi quy đơn biến
    • Nếu phân tích với ≥2 biến độc lập: sử dụng mô hình hồi quy đa biến.
  • Biến đầu ra được đo lặp lại nhiều lần: phân tích sống còn
  • Biến …
Vì vậy bài viết này chỉ xoay quanh mô hình hồi quy logistics. Được viết dựa trên bài giảng khóa học Hồi quy logistic ở trường ĐH YTCC HN
Nội dung 1: Ứng dụng hồi quy logistic và một số nội dung liên quan.
Ứng dụng của mô hình hồi quy logistics:
1. Phân tích mối quan hệ giữa biến độc lập và biến phụ thuộc. 
Ví dụ: Mối liên quan giữa ung thư phổi và hút thuốc lá
2. Dự đoán các giá trị của các biến phụ thuộc (y) dựa trên các giá trị của các độc lập (x1, x2,…xk). Ví dụ: dự báo nguy cơ mắc K phổi ở người hút thuốc.
3. Khống chế yếu tố nhiễu (hay dùng) 4. Xem xét ảnh hưởng của các biến độc lập lên biến phụ thuộc
Biến đầu ra (outcome) là biến nhị phân (bianary)
Là một biến nhị phân, biến đầu ra chỉ có thể nhận giá trị 0 hoặc 1.  • Thông thường, giá trị 1 để  chỉ sự “thành công” hoặc đầu ra cần quan tâm, và 0 là giá trị “thất bại”.
Ý nghĩa của giá trị nhị phân Y  là tỷ lệ biến đầu ra nhận giá trị p.
Ví dụ: Nghiên cứu bệnh BPD ở trẻ: Gồm 223 trẻ trong quần thể trẻ sơ sinh nhẹ cân, 76 trẻ được chẩn đoán là mắc bệnh BPD, một dạng bệnh mãn tính ở phổi. Và 147 trẻ không bị bệnh.
Vậy: “Dự đoán tốt nhất” là liệu một trẻ sơ sinh với đặc điểm là sơ sinh nhẹ cân liệu có khả năng mắc BDP với xác suất p = 76/223 = 0,341? Tuy nhiên việc ảnh hưởng tới 0.341 được giả thuyết là sự đóng góp từ cân nặng như ở người mẹ; trẻ sơ sinh (cân nặng của trẻ).

Kết luận 1
Việc xét 1 yếu tố ảnh hưởng hay 1 biến độc lập chưa thể quy kết đến xác suất xảy ra sự kiện. Đây là giả thuyết cho việc xây dựng mô hình đa biến
Giả định và điều kiện xây dựng mô hình
Trước khi đi vào kỹ thuật, chúng ta cần 1 số điều kiện trước lúc quyết định sử dụng nó hay không:
-   Không cần giả định như hồi quy tuyến tính: về tính chuẩn hay tuyến tinh hay phương sai đồng nhất.
-   Số đối tượng tối thiểu cho một biến độc lập trong mô hình là 10 (Hosmer & Lemeshow), nhiều nhà NC khuyến cáo nên có 20-40 quan sát/ biến. 
-   Tỷ số số mẫu/biến –hay được dùng là 20:1 cho hồi qui logistics với phương pháp enter –là 50:1 cho hồi qui logistics với phương pháp stepwise
Hồi quy đơn
y = ln(Odds) = ln[p/(1- p)] = α + βx + ε
-   Tỷ số số chênh (OR) = Odds của nhóm bệnh/ Odds của nhóm không bệnh = (a/b)/(c/d) = ad/ bc
*      OR > 1: phơi nhiễm là yếu tố nguy cơ
*      OR = 1: không có mối liên quan giữa phơi nhiễm và bệnh
*      OR < 1: phơi nhiễm là yếu tố bảo vệ
Các phương pháp đưa biến vào mô hình đa biến
-   Có 03 phương pháp để đưa biến vào mô hình hồi qui (đa biến) Đưa vào đồng thời: Các biến đưa vào 1 lúc
-   Phân cấp: các biến cần khống chế được đưa vào mô hình trước các biến dự báo được quan tâm
-   Stepwise: Các biến được chọn theo thứ tự mức độ đóng góp có ý nghĩa thống kê
Kết luận 2: Việc đưa biến vào mô hình phụ thuộc vào kinh nghiệm của nhà nghiên cứu. Bởi không có phương pháp nào là tốt nhất

Ví dụ

Bộ số liệu: chilumba.dta
Ø  Biến phụ thuộc: Bệnh phong (có-không)
Ø  Biến độc lập chính: Tiêm vắc xin BGC
Giả thuyết thống kê:
·         Có mối liên quan giữa việc tiêm vắc xin BCG và mắc bệnh phong không?
·         Nguy cơ mắc phong ở những người không tiêm vắc xin/ có tiêm vắc xin? 
Các câu hỏi cần quan tâm: 
Có sai số ngẫu nhiên không: KHÔNG do p<0 span="">Có sai số thông tin không: KHÔNG do bệnh Phong dễ chẩn đoán, sẹo BCG dễ phát hiện
Sai số chọn mẫu không: Xem lại thiết kế NC
Có yếu tố nhiễu hay không: So sánh OR thô và OR từng tầng
Nếu có 1 yếu tố gây nhiễu chỉ cần dùng phân tầng và sử dụng OR hiệu chỉnh
Khi có nhiều hơn 1 yếu tố gây nhiễu thì dùng hồi qui logistics đa biến



MÔ HÌNH HỒI QUY LOGISTICS ĐA BIẾN
Hồi qui logistic đơn với biến độc lập là –Danh mục (nhiều hơn 2 nhóm) –Thứ bậc –Định lượng
Hồi qui logistic đa biến –Xây dựng mô hình –Các phương pháp đưa biến vào mô hình –Lựa chọn mô hình


Nhận xét

Bài đăng phổ biến từ blog này

Phần mềm dinh dưỡng tính khẩu phần ăn - Hướng dẫn phần mềm Vietnam Eiyokun

bạn muốn biết bạn đã ăn bao nhiêu kcal protit, lipip, gluxit, bao nhiêu g vitamin và vô số chất dinh dưỡng khác trong bữa ăn hằng ngày? làm thế nào để tính được 1 người nặng 100 kg cao 1m80 mỗi ngày cần bao nhiêu protit, lipip, gluxit? 1 công việc quá đơn giản đối với 1 nhà dinh dưỡng chuyên nghiệp. vấn đề là chúng ta thường là các nhà dinh dưỡng không chuyên. nhưng với phần mềm Vietnam Eiyokun tất cả chúng ta đều trở thành những nhà bán chuyên nghiệp. các bạn download hướng dẫn tại đây Bản cài đặt tại đây . pass mở file là itcchue code là A020400312

Các phép tính đơn giản ứng dụng trong SPSS - Lệnh Compute

Xin nhắc lại đây là những bài viết ở mức độ hướng dẫn cơ bản và mang tính chất cá nhân nên không thể tránh sai sót. Chỉ là mang tính chất xây dựng nguồn tài liệu của YTCC Huế Chủ đề hôm nay là thực hiện các phép tính cơ bản: Đơn giản muốn tính BMI trong SPSS. Bạn làm thế nào, trong khi đã có dữ kiện là Cân nặng, chiều cao (cm). BMI = (Cân nặng/(Chiều cao* chiều cao)*10000) Mô tả bằng hình ảnh trong SPSS. H1:  H2 Bạn trở lại cửa sổ Variable View sẽ thấy 1 biến mới "BMI" xuất hiện. Nó là kết quả của việc thực hiện thuât toán trên. Xin lỗi là công thức trên thiếu 1 dấu ")" cuối cùng trong hình 2. Thks đã đọc TBT Ytcchue.blogspot.com

Recode – mã hoá lại biến trong Stata

Lệnh recode giúp ta mã hoá lại các giá trị của biến theo những điều kiện được đưa ra. Giá trị nào không phù hợp với biểu thức điều kiện sẽ không bị thay đổi, ngoại trừ phù hợp với những điều kiện kèm theo. Câu lệnh như sau: recode danh sách biến (biểu thức điều kiện) [biểu thức điều kiện] [if] [in] [, tuỳ chọn]