Chuyển đến nội dung chính

Visitors (statistics)

PHÂN TÍCH HỒI QUI TUYẾN TÍNH ĐƠN GIẢN

PHÂN TÍCH HỒI QUI TUYẾN TÍNH ĐƠN GIẢN
(Simple Linear Regression Analysis)

Phân tích hồi qui tuyến tích đơn giản là tìm sự liên hệ giữa 1 biến số độc lập (biến dự đoán) trên trục hoành x với 1 biến số phụ thuộc (biến kết cục) trên trục tung y. Sau đó vẻ 1 đường thẳng hồi qui và từ phương trình đường thẳng này ta có thể dự đoán được biến y (ví dụ: cân nặng)  khi đã có x (ví dụ: tuổi)
Ví dụ 1: Ta có 1 mẫu gồm 6 trẻ từ 1-6 tuổi, có cân nặng như bảng sau:

Tuổi
Cân nặng (kg)
1
10
2
12
3
14
4
16
5
18
6
20

Nối các cặp (x,y) này ta thấy có dạng 1 phương trình bậc nhất: y=2x+8
(trong đó 2 là độ dốc và 8 là điểm cắt trên trục tung y khi x=0). Trong thống kê phương trình đường thẳng (bậc nhất) này được viết dưới dạng:

y= bx + a   [1]
Đây là phương trình hối qui tuyến tính, trong đó b gọi là slope (độ dốc) và a là intercept (điểm cắt trên trục tung)
Thực ra phương trình hồi qui tuyến tính này chỉ có trên lý thuyết, nghĩa là các trị số của xi (i=1,2,3,4,5,6) và yi tương ứng liên hệ 100% (hoặc hệ số tương quan R=1)  
Trong thực tế hiếm khi có sư liên hệ 100% nàythường   sự sai lệch giữa trị số quan sát yi và trị số yi  ước đoán nằm trên đường hối qui.
Ví dụ 2: Ta 1 mẫu gồm 6 trẻ em khác có cân nặng theo bảng sau:

Tuổi
Cân nặng (kg)
1
11
2
11
3
14
4
16
5
18
6
20



Khi vẽ đường thẳng hồi qui, ta thấy các trị số quan sát y3, y4, y5, y6 nhưng y1 và y2 không nằm trên trên đường thẳng này và sự liên hệ giữa xi và  yi không còn là 100% mà chỉ còn 97% vì có sự sai lệch tại y1y2. Sự sai lệch này trong thống kê gọi là phần dư (Residual) hoặc Errors.
Gọi y1, y2, y3, y4, y5, y6 là trị số quan sát và y’1, y’2, y’3, y’4, y’5, y’6 là trị số ước đoán nằm trên đường hồi qui, e1, e2, e3, e4, e5, e6 là phần dư.
Như vậy              e1= y1 –y’1
e2 = y2y’2
e3 = y3y’3
e4 = y4y’4
e5 = y5y’5
e6 = y6y’6
   Khi đó phương trình hi qui tuyến tính được viết dưới dạng tổng quát như sau:
y’= βxi + ai+ ei   [2]
Như vậy nếu phần dư ei  càng nhỏ sự liên hệ giữa x,y càng lớn và ngược lại. Phần liên hệ còn đượi gọi là phần hồi qui. Mô hình hồi qui tuyến tích được mô tả:

Dữ liệu= Hồi qui (Regression) + Phần dư (Residual)


Ví dụ 3: Nếu chúng ta chọn một mẫu thực tế gồm 30 em từ 1-6 tuổi và kết quả cân nặng tương ứng của 30 em được vẻ  trong biểu đồ sau:


Lúc này ta không thể nối 30 điểm trên biểu đồ mà phải vẽ 1 đường thẳng đi càng gần với tất cả  các điểm càng tốt. Như vậy 3 đường thẳng ở biểu đồ ta chọn đường thẳng nào?. Nguyên tắc chọn đường thẳng nào đi gần cả 30 đim, có nghĩa làm sao để tổng các phần dư Sei nhỏ nhất:
S ei= S (yi- βx – α)
và tổng bình phương của phần dư:
S (ei)2= S (yi- βx – α)2
Đây là phương trình bậc 2 theo x. Trong toán học, muốn tìm trị cực tiểu của 1 phương trình bậc 2, người ta lấy đạo hàm và cho đạo hàm triệt tiêu (bằng 0) sẽ tím được trị cực tiểu của x. Giải phương trình này, ta sẽ tính được 2 thông số ba và từ 2 thông số này ta sẽ vẽ được đường thẳng hồi qui. Phương pháp này trong toán học gọi là phương pháp bình phương nhỏ nhất (least square method).
Giải phương trình trên ta có:
b =  r
(r là hệ số tương quan; Sy là độ lệch chuẩn của y và Sx là độ lệch chuẩn của x)
r = S ( ) ( )
a= y - bx
và phương trình hồi qui tuyến tính của y theo x (bình phương nhỏ nhất) là: 
  y’ = βxi + a
Dùng phần mềm SPSS để vẻ đường hồi qui đồng thời tính phần hồi qui và phần dư của mô hình. Nhập số liệu tuổi và cân nặng cân được của 30 trẻ 1-6 tuổi vào SPSS: 
Nhập số liệu vào SPSS
Vào menu >Analyze> Regression> Linear

Bảng 1. Tóm tắt mô hình
Hệ số tương quan R=0,918 và R2=0,843

Bảng 2. Phân tích ANOVA với biến phụ thuộc là cân nặng
Tổng bình phương phần hồi qui (Regression)=336,14
Tổng bình phương phần dư (Residual)=62,8
Trung bình bình phương hồi qui: 336,14/ 1 (bậc tự do)=336,14
Trung bình bình phương phần dư: 62,8/ 28(bậc tự do=n-2)=2,24
F=  = 149,8 và p<0,000

Bảng 3. thông số ba
Kết quả bảng 3 cho biết độ dốc b= 1,96 và điểm cắt tại trung tung là a=7.773
Phương trình đường thẳng hồi qui là:

Cân nặng= 1,96 x tuồi + 7,77

Như vậy khi em bé tăng lên 1 tuổi thì cân nặng tăng lên 1,96 kg
Vẽ đường thẳng hồi qui trong SPSS

Từ phương trình này ta có thể ước đoán được cân nặng theo tuổi của trẻ, tuy nhiên nằm trong một giới hạn nào đó, chẳng hạn như từ 1-12 tuổi, vì sau tuổi này là thời kỳ dậy thì, cân nặng của trẻ sẽ tăng vọt so với tuổi.


Ví dụ muốn ước đoán cân nặng của trẻ  từ quần thể nghiên cứu này:
7 tuổi ð Cân nặng= 1,96 x7 + 7,77 = 21,49 kg
8 tuổi ð Cân nặng= 1,96 x8 + 7,77 = 23,45 kg


Nguồn: Sưu tầm nguyên bài viết BSRang
Bài viết còn tiếp về HD vẽ biểu đồ hình chấm trong Excel 07(Có thể vẽ trong SPSS nhưng không đẹp lắm nên dùng excel). Bạn đọc nhớ đón đọc nghen. Mình sẽ update trong thời gian tới.
TBT_YTCC07
Nguồn: Ytcchue.blogspot.com

Nhận xét

Nặc danh đã nói…
ban viet rat hay.
cam on bai viet cua ban nhe
Nặc danh đã nói…
rat la hay.
cam on

Bài đăng phổ biến từ blog này

Phần mềm dinh dưỡng tính khẩu phần ăn - Hướng dẫn phần mềm Vietnam Eiyokun

bạn muốn biết bạn đã ăn bao nhiêu kcal protit, lipip, gluxit, bao nhiêu g vitamin và vô số chất dinh dưỡng khác trong bữa ăn hằng ngày? làm thế nào để tính được 1 người nặng 100 kg cao 1m80 mỗi ngày cần bao nhiêu protit, lipip, gluxit? 1 công việc quá đơn giản đối với 1 nhà dinh dưỡng chuyên nghiệp. vấn đề là chúng ta thường là các nhà dinh dưỡng không chuyên. nhưng với phần mềm Vietnam Eiyokun tất cả chúng ta đều trở thành những nhà bán chuyên nghiệp. các bạn download hướng dẫn tại đây Bản cài đặt tại đây . pass mở file là itcchue code là A020400312

Các phép tính đơn giản ứng dụng trong SPSS - Lệnh Compute

Xin nhắc lại đây là những bài viết ở mức độ hướng dẫn cơ bản và mang tính chất cá nhân nên không thể tránh sai sót. Chỉ là mang tính chất xây dựng nguồn tài liệu của YTCC Huế Chủ đề hôm nay là thực hiện các phép tính cơ bản: Đơn giản muốn tính BMI trong SPSS. Bạn làm thế nào, trong khi đã có dữ kiện là Cân nặng, chiều cao (cm). BMI = (Cân nặng/(Chiều cao* chiều cao)*10000) Mô tả bằng hình ảnh trong SPSS. H1:  H2 Bạn trở lại cửa sổ Variable View sẽ thấy 1 biến mới "BMI" xuất hiện. Nó là kết quả của việc thực hiện thuât toán trên. Xin lỗi là công thức trên thiếu 1 dấu ")" cuối cùng trong hình 2. Thks đã đọc TBT Ytcchue.blogspot.com

Recode – mã hoá lại biến trong Stata

Lệnh recode giúp ta mã hoá lại các giá trị của biến theo những điều kiện được đưa ra. Giá trị nào không phù hợp với biểu thức điều kiện sẽ không bị thay đổi, ngoại trừ phù hợp với những điều kiện kèm theo. Câu lệnh như sau: recode danh sách biến (biểu thức điều kiện) [biểu thức điều kiện] [if] [in] [, tuỳ chọn]