Hôm trước chúng ta lược qua một số ví dụ rất hay của ThầyDương. Hôm nay để đi vào cụ thể tôi sẽ H. File số liệu đính kèm
Khi làm nghiên cứu cái cần lưu ý trong thiết kế đó là
Biến phụ thuộc là gì
và phải phân biệt rõ biến độc lập và biến phụ thuộc
Ở đây, tôi lấy ví dụ về
Tuổi liên quan đến giá trị creatinine
Outcome: cre
income: age
Nhưng trước đó, các bạn có thể cần chuyể biị số liệu mình sang STata đã: Dùng cái này statransfer
Nhưng trước đó, các bạn có thể cần chuyể biị số liệu mình sang STata đã: Dùng cái này statransfer
Chúng ta xem như số liệu đã được làm sạch và được kiểm tra
kĩ
Bước 1:
Trước tiên các bạn kiểm tra tính chuẩn của cre (lab3.dta)
-
Bộ số liệu sẵn sàng (đã được mở)
Kiểm tra tính chuẩn
H1: Kiểm tra phân phối chuẩn của biến
cre
Kết
luận: Không phân phối chuẩn
Các bạn có thể nhìn vào đây (h2) để xđ tính
chuẩn hay không
Việc cần thiết đó là chúng ta cần đưa nó về
dạng chuẩn (Có nhiều cách để tìm hiểu bằng cách nào để làm cho số liệu chuẩn)
Cách 1:
Bạn dung lệnh Transformation:
ladder cre
Transformation formula chi2(2) P(chi2)
------------------------------------------------------------------
cubic creat^3 . .
square creat^2 . .
identity creat . .
square root sqrt(creat) . 0.000
log log(creat) . 0.000
1/(square root) 1/sqrt(creat) . 0.000
inverse 1/creat . 0.000
1/square 1/(creat^2) . .
1/cubic 1/(creat^3) . .
Ở đây chúng ta sẽ tìm bảng Transformation:
Cái nào có X2 nhỏ nhất với p<0 .05=".05" l="l" span="span" th="th" y.="y.">0>
Lấy ở đây là lấy phép tính
nào để chuyển số liệu sang dạng chuẩn.
Tuy nhiên, các bạn nhìn thấy
trên – Với Cre thì không ra được kết quả để có thể xác định được.
Xem kết quả nha(N
Nhớ để ý xem cái nào phân phối đẹp “Phân phối chuẩn”)
Qua biểu đồ trên chúng ta thấy biêu đồ 5 là
chuẩn nhất đúng không?
Vậy nên chúng ta quyết định chuyển số liệu
sang dạng Log.
Bước đầu tiên
Tạo biến mới: gen lncre = log(cre)
Chú ý: lncre chỉ là tên biến nên bạn có quyền
thay đổi bằng tên khác.
Chúng ta thấy đẹp hơn đúng không :D
Kết luận 1: Chúng ta đã chuyển số liệu cre sang phân phối chuẩn
Bước
2:
Xem số liệu của biến tuổi. Chúng ta cần
chuyển sang giá trị trung tâm (Nói chung tùy thuộc vào mục tiêu NC của chúng ta,
chúng ta có thể sử dụng tuổi/10 hay n.)
Mục đích chuyển sang giá trị trung tâm giúp
cho việc phân tích mô hình và phiên giải tốt hơn và phù hợp hơn
. egen
meanage =
mean(age)
. gen cage= age – meanage
Lưu ý:
2 biến tô đậm trên là chúng ta tự đặt, các bạn có thể thay đổi.
Vậy là chúng ta đã xong việc chuyển giá trị
tuổi sang giá trị trung tâm.
Kết
luận 2: Chúng ta có biến mới là biến tuổi trung tâm (cage)
Bước
3: Chạy mô hình
Câu lệnh:
.
reg lncre cage
Source | SS
df MS Number of obs = 2761
-------------+------------------------------ F(
1, 2759) = 88.99
Model |
3.90984215 1 3.90984215 Prob > F =
0.0000
Residual |
121.215403 2759 .043934543
R-squared =
0.0312
-------------+------------------------------ Adj R-squared = 0.0309
Total |
125.125245 2760 .045335234 Root MSE =
.20961
------------------------------------------------------------------------------
lncre | Coef.
Std. Err. t P>|t|
[95% Conf. Interval]
-------------+----------------------------------------------------------------
cage |
.0056555 .0005995 9.43
0.000 .0044799 .006831
_cons |
.0534922 .0039891 13.41
0.000 .0456704 .0613141
Việc tiếp theo đó là chúng
ta kiểm tra mô hình có phù hợp hay không. Tất nhiên có nhiều giá trị cho chúng
ta phiên giải: Như giá trị R2 (3%) hay các giá trị cage.
Lncre = 0.053 + 0.0056cage
Nhưng
ở đây tôi cố tập trung vào Kiểm tra độ mạnh của mô hình bằng biểu đồ scatter bằng
cách tạo ra phần dư và các giá trị phù hợp
predict fitted, xb
predict resid, residuals
Bằng
1 trong 2 cách sau
1. twoway (scatter lncre cage ) (lfit lncre
cage), name(twoway,replace)
2. scatter res fit, yline(0)
Vậy chứng tỏ mô hình phù hợp (Cứ nhìn vào hình không ra hình dạng gì là được - ah, đang nghi cái biểu đồ ni có vấn đề. Ai chạy ra khác báo liền hi để thay đổi)
Nhận xét