Tác dụng của câu lệnh này là nó sẽ kiểm tra tên biến, các
nhãn biến, nhãn giá trị, số liệu để đưa ra một bảng mã mô tả bộ số liệu đó.
Công thức chung của câu lệnh này như sau:
codebook [danh sách
biến] [if] [in] [, options]
Một số options dùng trong câu lệnh này
all thể hiện thông tin đầy đủ của bộ số
liệu khi sử dụng codebook với 1 danh sách biến
mv báo
cáo các giá trị missing
tabulate (#) thiết lập một ngưỡng để xác định xem biến đó là thứ hạng (categorical) hay liên tục (continuous) và thực hiện các
mô tả thống kê đơn giản thích hợp, mặc định, # = 9. Theo như mặc định của
stata, số giá trị đặc biệt (uinque value) > #, thì nó là một biến liên tục,
và ngược lại. Giá trị missing không được mô tả trong lệnh này.
compact Mô tả biến theo hàng ngang
Ví dụ
. webuse citytemp
Thể hiện bảng mã cho tất cả các biến
có trong bộ số liệu
. codebook
Hoặc lệnh
. codebook _all
Thể hiện các biến dưới dạng hàng
ngang. Lệnh compact tóm tắt toàn bộ số liệu, bao gồm cả nhãn biến. Lệnh này có
thể thay thế cho lệnh sum.
. codebook ,c
Variable Obs
Unique Mean Min
Max Label
-----------------------------------------------------------------------------
division 956 9
5.135983 1 9
Census Division
region
956 4 2.623431
1 4 Census Region
heatdd
953 471 4425.533
0 10816 Heating degree days
cooldd
953 438 1240.413
0 4389 Cooling degree days
tempjan 954 310
35.74895 2.2 72.6
Average January temperature
tempjuly
954 196 75.05377
58.1 93.6 Average July temperature
-----------------------------------------------------------------------------
.
sum
Variable
| Obs Mean
Std. Dev. Min Max
-------------+--------------------------------------------------------
division
| 956 5.135983
2.694249 1 9
region
| 956 2.623431
1.057724 1 4
heatdd
| 953 4425.533
2199.605 0 10816
cooldd
| 953 1240.413
937.6679 0 4389
tempjan
| 954 35.74895
14.18813 2.2 72.6
-------------+--------------------------------------------------------
tempjuly
| 954 75.05377
5.495036 58.1 93.6
Kiểm tra các giá trị missing của các
biến cooldd, heatdd, tempjan, và tempjuly
. codebook cooldd heatdd tempjan tempjuly, mv
--------------------------------------------------------------------------
cooldd
Cooling degree days
---------------------------------------------------------------------------
type: numeric (int)
range: [0,4389] units: 1
unique values: 438 missing .: 3/956
mean: 1240.41
std. dev: 937.668
percentiles: 10% 25%
50% 75% 90%
411 615
940 1566 2761
missing values: heatdd==mv
<-> cooldd==mv->
tempjan==mv
--> cooldd==mv
tempjuly==mv
--> cooldd==mv
--------------------------------------------------------------------------
heatdd Heating degree days
--------------------------------------------------------------------------
type: numeric (int)
range: [0,10816] units: 1
unique values: 471 missing .: 3/956
mean: 4425.53
std. dev: 2199.6
percentiles: 10% 25%
50% 75% 90%
1510 2460
4950 6232 6919
missing values: cooldd==mv
<-> heatdd==mv->
tempjan==mv
--> heatdd==mv
tempjuly==mv
--> heatdd==mv
-----------------------------------------------------------------------------
Tempjan Average January temperature
-----------------------------------------------------------------------------
type: numeric (float)
range: [2.2,72.6] units: .1
unique values: 310 missing .: 2/956
mean: 35.749
std. dev: 14.1881
percentiles: 10% 25%
50% 75% 90%
20.2 25.1
31.3 47.8 55.1
missing values: tempjuly==mv
<-> tempjan==mv->
-----------------------------------------------------------------------------
Tempjuly Average July temperature
-----------------------------------------------------------------------------
type: numeric (float)
range: [58.1,93.6] units: .1
unique values: 196 missing .: 2/956
mean: 75.0538
std. dev: 5.49504
percentiles: 10% 25%
50% 75% 90%
68.8 71.8
74.25 78.7 82.3
missing values: tempjan==mv
<-> tempjuly==mv->
Codebook báo cáo rằng, nếu biến tempjan có giá trị missing thì ở biến tempjuly cũng có giá trị
missing. Với kết quả của biến cooldd, codebook cũng báo rằng giá trị
missing được phát hiện ở cooldd cũng đồng thời được phát hiện ở heatdd. Điều này có nghĩa trên cũng
một bản ghi, 2 biến được so sánh điều có giá trị missing. Và phát hiện này được
ký hiệu bởi “<->”.->
Đối với biến cooldd, codebook còn phát hiện được “tempjan==mv
--> cooldd==mv”. Mũi tên 1 chiều này cho ta biết giá trị missing ở biến
tempjan bao hàm các giá trị missing ở biến cooldd nhưng các giá trị missing của
cooldd lại không bao hàm các giá trị missing ở tempjan. Nghĩa là, đối với 2
biến cooldd và tempjan, có ít nhất một bản ghi bị missing ở tempjan nhưng không
bị missing ở tempjan.
. sysuse auto.dta
. codebook headroom
----------------------------------------------------------------------------
headroom
Headroom
(in.)
----------------------------------------------------------------------------
type: numeric (float)
range: [1.5,5] units: .1
unique values: 8 missing .: 0/74
tabulation: Freq. Value
4 1.5
13 2
14 2.5
13 3
15 3.5
10 4
4 4.5
1 5
Bạn muốn biết thêm một số thông tin về biến headroom này, ví
dụ như về trung bình và độ lệch chuẩn của biến này, bạn hãy sử dụng lệnh sau
. codebook headroom, t(7)
----------------------------------------------------------------------------
headroom
Headroom
(in.)
----------------------------------------------------------------------------
type: numeric (float)
range: [1.5,5] units: .1
unique values: 8 missing .: 0/74
mean: 2.99324
std. dev: .845995
percentiles: 10% 25%
50% 75% 90%
2 2.5 3
3.5 4
T(7) để định nghĩa cho Stata hiểu rằng, với câu lệnh này, biến thứ hạng
là biến có ít hơn 8 giá trị đặc biệt. Biến nào có nhiều hơn 7 giá trị đặc biệt
là biến liên tục. Do đó, Stata sẽ hiển thị Mean và SD thay vì Freq. và Value.
. codebook headroom,c
Variable Obs Unique Mean
Min Max Label
-----------------------------------------------------------------
headroom 74 8
2.993243 1.5 5
Headroom (in.)
-----------------------------------------------------------------
Tuỳ chọn tabulate (#) khá giống với lệnh compact khi hiển
thị các giá trị trung bình, min, max. Tuy nhiên, tabulate (#) cho ta nhiều
thông tin hơn so với lệnh compact.
Ta chạy lệnh sau:
.
codebook headroom
----------------------------------------------------------------------------
headroom
Headroom
(in.)
----------------------------------------------------------------------------
type: numeric (float)
range: [1.5,5] units: .1
unique values: 8 missing .: 0/74
tabulation: Freq. Value
4 1.5
13 2
14 2.5
13 3
15 3.5
10 4
4 4.5
1 5
Ta có thể thấy rằng, kết quả trả về thiếu các thông tin về
bộ số liệu, Stata cung cấp cho ta tuỳ chọn all để thể hiện các thông tin cơ bản
về bộ số liệu.
. codebook headroom ,a
Dataset: C:\anhxo\autolab.dta
Last
saved: 10 Dec 2012 23:49
Label: 1978 Automobile Data
Number of
variables: 12
Number of observations:
74
Size: 3,182 bytes ignoring
labels, etc.
_dta:
1. from Consumer Reports with permission
----------------------------------------------------------------------------
headroom
Headroom
(in.)
----------------------------------------------------------------------------
type: numeric (float)
range: [1.5,5] units: .1
unique values: 8 missing .: 0/74
tabulation: Freq. Value
4 1.5
13 2
14 2.5
13 3
15 3.5
10 4
4 4.5
1 5
Tuỳ chọn all cho phép diễn tả thông tin chi tiết của bộ số liệu
đi kèm với mô tả biến được chọn.
TÓM TẮT
Xem toàn bộ biến trong trong bộ số liệu:
. Codebook
Xem mô tả từng biến với mô tả bộ số liệu
. Codebook headroom, all
Kiểm tra các giá trị missing
. Codebook
cooldd heatdd tempjan tempjuly, mv
Mô tả biến thứ hạng như biến liên tục:
. codebook headroom, t(7)
Mô tả biến theo hàng ngang:
. codebook headroom, c(7)
Tài Liệu
Tham Khảo
2. Stata Data-Management Reference Manual Release 12
Nhận xét