Nhằm đáp ứng sự đa dạng hơn về sử dụng phần mềm Thống kê. Chúng tôi 1 nhóm cựu sinh viên CN YTCC xin viết một số bài cơ bản về SD các phần mềm thống kê. Không vì mục đích vụ lợi chỉ đơn thuần là đóng góp vào tài nguyên chung.
Cụ thể ở đây là STATA
Download stata 12 ở đâu? Click theo link sau
Bài viết của CN Xô về "Tạo Lebel trong stata"
Trước hết, sử dụng câu lệnh sau để tải file số liệu về máy của bạn
use
http://www.ats.ucla.edu/stat/stata/modules/autolab.dta, clear
Trước hết, sử dụng lệnh describe
để mô tả số liệu, lệnh này sẽ mô tả những thông tin cơ bản về biến số, ví dụ
tên biến, nhãn biến, giá trị của biến,...
describe
(nếu bạn muốn mô tả toàn bộ bộ số
liệu của bạn)
Hoặc
describe [tên biến]
(nếu bạn muốn mô tả một số biến trong bộ số liệu của bạn)
(nếu bạn muốn mô tả một số biến trong bộ số liệu của bạn)
.
describe
Contains
data from C:\anhxo\autolab.dta
obs: 74 1978 Automobile Data
vars: 12 10 Dec 2012 23:49
size:
3,182
(_dta has notes)
-----------------------------------------------------------------
storage display
value
variable
name type format
label variable label
-----------------------------------------------------------------
make str18 %-18s
price int %8.0gc
mpg int %8.0g
rep78 int %8.0g
headroom float
%6.1f
trunk int %8.0g
weight int
%8.0gc
length int
%8.0g
turn int %8.0g
displacement int
%8.0g
gear_ratio float
%6.2f
foreign byte
%8.0g
------------------------------------------------------------------
Sorted
by: foreign
Mô tả ở
trên cho ta thấy bộ số liệu này chưa hề được mã hoá. Chúng ta cùng bắt tay mã
hoá bộ số liệu này.
Trước hết,
hãy thay đổi mô tả về bộ số liệu (dataset label), mô tả cũ của nó là
“1978
Automobile Data”
label data “This file contains auto data for the year 1978”
. describe
Contains
data from C:\anhxo\autolab.dta
obs: 74 This file contains auto data for the year
1978
vars: 12 10 Dec 2012 23:49
size:
3,182
(_dta has notes)
----------------------------------------------------------------
storage display value
variable
name type format
label variable label
----------------------------------------------------------------
make str18
%-18s
price int %8.0gc
mpg int %8.0g
rep78 int %8.0g
headroom float
%6.1f
trunk int %8.0g
weight int
%8.0gc
length int
%8.0g
turn int %8.0g
displacement int
%8.0g
gear_ratio float
%6.2f
foreign byte
%8.0g
----------------------------------------------------------------
Sorted
by: foreign
Tiếp theo,
ta sẽ gán nhãn cho các biến rep78, price,
mpg và foreign bằng câu
lệnh label variable.
. label variable rep78 "the repair record from 1978"
. label variable price "the price of the car in 1978"
. label variable mpg "the miles per gallon for the
car"
. label variable foreign "the
origin of the car, foreign or domestic"
. de rep78 price mpg foreign
storage display
value
variable name type format
label variable label
-----------------------------------------------------------------
rep78 int %8.0g the repair record from 1978
price int %8.0gc the price of the car in 1978
mpg int %8.0g the miles per gallon for the
car
foreign byte %8.0g the origin of the car,
foreign or domestic
Ta tiếp tục gán nhãn cho giá trị của biến foreign.
Quá trình này bao gồm 2 bước:
Bước 1: tạo nhãn
biến với câu lệnh label define
[tên nhãn biến] 1 “tên giá trị 1” 2 “tên giá trị 2” n “tên giá trị n”
Bước 2: gán nhãn
biến vào biến thích hợp với câu lệnh label
value [tên biến1] [tên biến 2] … [tên nhãn biến]
Ta sẽ mã
hoá cho biến foreign với các giá trị
như sau: 0 domestic
car và 1 foreign car với câu lệnh:
lab def forlab 0 "domestic car" 1 "foreign car"
Sau đó, ta sẽ gán nhãn biến vào biến foreign. Câu lệnh là:
lab val
foreign forlab
. describe foreign
variable
name type format
label variable label
---------------------------------------------------------------- foreign byte
%12.0g forlab the origin of the car, foreign or domestic
Bây giờ, khi bạn sử dụng lệnh tabulate
foreign, nó sẽ xuất hiện
nhãn giá trị của biến, đó là domestic car and foreign car, thay vì 0 với 1.
. tabulate
foreign
the origin |
of the car, |
foreign or |
domestic | Freq.
Percent Cum.
-------------+-----------------------------------
domestic
car | 52 70.27 70.27
foreign car | 22 29.73 100.00
-------------+-----------------------------------
Total | 74
100.00
Nếu bạn muốn hiện giá trị của biến
thay vì hiện nhãn giá trị, câu lệnh tabulate foreign, nol sẽ giúp bạn thực hiện điều này.
. tabulate
foreign, nol
the origin |
of the car,
|
foreign or |
domestic | Freq.
Percent Cum.
------------+-----------------------------------
0 | 52 70.27 70.27
1 | 22 29.73 100.00
------------+-----------------------------------
Total | 74
100.00
Giả sử bạn không muốn sử dụng lable
forlab cho biến foreign nữa, bạn có thể dùng lệnh:
. label
drop forlab
để xoá label forlab cho biến này đi.
Lưu ý: nếu bạn xoá 1 tên nhãn biến được
gán cho nhiều biến thì khi bạn xoá tên nhãn biến đó, sẽ xoá luôn các nhãn giá
trị của các biến đã được gán.
Tiếp theo, ta sẽ mã hoá biến headroom như sau:
recode
headroom 1/2=1 2.1/3=2 3.1/4=3 4.1/5=4, gen(gr_headroom)
Trong câu lệnh trên, lệnh gen được
dùng để tạo một biến mới có tên là gr_headroom chứa các giá trị đã được mã hoá
lại của biến headroom. Nếu bạn muốn mã hoá ngay trên biến headroom, hãy bỏ câu
lệnh gen(gr_headroom)
Sau đó, tạo nhãn cho biến và giá trị
của biến grmpg như sau:
. lab var gr_headroom
“nhom bien headroom”
. lab def
gr_headroom 1 "1-2" 2 "2-3" 3 "3-4"
. lab val gr_headroom gr_headroom
. de gr_headroom
storage display
value
variable
name type format
label variable label
---------------------------------------------------------------
gr_headroom float %9.0g gr_headroom nhom bien headroom
gr_headroom float %9.0g gr_headroom nhom bien headroom
. tab gr_headroom
nhom bien |
headroom | Freq.
Percent Cum.
------------+-----------------------------------
1-2 | 17 22.97 22.97
2-3 | 27 36.49 59.46
3-4 | 25 33.78 93.24
4 | 5 6.76 100.00
------------+-----------------------------------
Total | 74
100.00
Như vậy, ta đã mã hoá thiếu mất giá
trị 4 – “4-5”, để thêm giá trị này vào, ta làm như sau:
. label define gr_headroom
4 "4-5", add
Kiểm tra lại bằng câu lệnh:
. tab gr_headroom
nhom bien |
headroom | Freq.
Percent Cum.
------------+-----------------------------------
1-2 | 17 22.97 22.97
2-3 | 27 36.49 59.46
3-4 | 25 33.78 93.24
4-5 | 5 6.76 100.00
------------+-----------------------------------
Total | 74
100.00
Nếu bạn muốn liệt kê các tên nhãn
biến được sử dụng trong bộ số liệu này, các bạn sử dụng câu lệnh sau:
. label dir
gr_headroom
forlab
Nếu bạn muốn liệt kê các giá trị được
gắn nhãn của tên nhãn biến, các bạn sử dụng câu lệnh sau:
. label list
gr_headroom:
1 1-2
2 2-3
3 3-4
4 4-5
forlab:
0 domestic car
1 foreign car
Hoặc:
. label list
forlab
forlab:
0 domestic car
1 foreign car
Tóm tắt
Tạo mô tả cho bộ số liệu
. label data “This file contains auto data for the year 1978”
Tạo nhãn cho biến
. label variable rep78 "the repair record from 1978"
Tạo nhãn giá trị cho biến
. lab define
gr_headroom 1 "1-2" 2 "2-3" 3 "3-4"
. lab value gr_headroom gr_headroom
Xoá tên nhãn
. label
drop forlab
Thêm nhãn giá trị vào một tên nhãn đã
có sẵn
. lab def gr_headroom
4 "4-5", add
Xem các tên nhãn đã tạo
. lab dir
Liệt kê giá trị của nhãn biến
. lab list
forlab
Nhận xét