Thứ Sáu, 25 tháng 3, 2011

Liên hệ giữa cỡ mẫu và cỡ quần thể

Bài viết trích từ Statistics.vn

Liên hệ giữa cỡ mẫu và cỡ quần thể



Một thắc mắc được một bạn ở blog ytcchue.blogspot.com gởi cho chúng tôi, nguyên văn như sau:
"Ở nghiên cứu mô tả cắt ngang một tỷ lệ với với phương pháp chọn mẫu ngẫu nhiên đơn (Là phương pháp chọn mẫu trong đó các cá thể được chọn như nhau vào mẫu nghiên cứu) .Phiền các anh/chị/đồng nghiệp làm rõ Mối liên hệ nào giữa số đơn vị mẫu nghiên cứu và số đơn vị trong quần thể?- trích từ ytecongcong.com"
Trước hết xin cảm ơn các bạn đã gởi thắc mắc. Chúng tôi xin trả lời như sau
Thông thường các nghiên cứu đều nghiên cứu trên quần thể vô hạn hoặc được cho là vô hạn. Ví dụ nghiên cứu tác dụng của một loại thuốc đối với việc hạ huyết áp thì chắc chắn là ta muốn nói đến một quần thể vô hạn người bị cao huyết áp. Hoặc, một quần thể hữu hạn nhưng với số lượng quá lớn, cỡ mẫu chọn ra từ đó có tương quan rất nhỏ so với quần thể thì quần thể cũng được coi là vô hạn. Ví dụ nghiên cứu chiều cao của người Việt Nam vào năm 2011 với cỡ mẫu 5.000 từ gần 90 triệu dân, thì quần thể cũng được coi là vô hạn.
Và như một hệ quả, các công thức ước lượng cho thông số của quần thể thường là vắng mặt cỡ của quần thể. Nhưng như thấy dưới đây, Cochran [1] có cách tiếp cận bằng cách cho quần thể là hữu hạn. Và công thức tính toán sẽ trở thành như các công thức ta thường thấy khi quần thể tiến đến vô hạn hoặc quá lớn so với mẫu.
Trong thực tế, mặc dù không nhiều, cũng có thể có trường hợp như ta muốn xác định tỉ lệ mắc bệnh của một dịch bệnh tại một xã nhỏ nào đó trong một thời điểm cụ thể, Hoặc ta muốn nghiên cứu tỉ lệ hỏng của 1000 lọ thuốc thuộc một lot sản xuất cụ thể. thì có thể việc xác định quần thể là hữu hạn sẽ là thích hợp.
Các kết quả sau đây dựa vào một tác phẩm kinh điển của Cochran, [1] một nhà thống kê lớn gốc Scotland nhưng phần lớn thời gian sống và làm việc tại Mỹ, nổi tiếng với kiểm định Cochran hoặc Cochran Q và định lý Cochran, xem tiểu sử tại đây).
Trong kỹ thuật lấy mẫu người ta định nghĩa tỉ lệ lấy mẫu (sampling fraction) là tỉ lệ giữa mẫu và quần thể.
f =n/N
Với n là cỡ mẫu và N là cỡ của quần thể.
Mặt khác, fpc: finite population correction (hiệu chỉnh cho quần thể hữu hạn, có tác giả cho thêm chữ f, factor thành: fpcf ) được định nghĩa là
fpc = (N-n)/(N-1)
đôi khi chỉ là fpc = (N-n)/N. (Định nghĩa của Cochran, có tác giả định nghĩa với căn bậc hai)
Dễ thấy là fpc luôn nhỏ hơn 1 (vì đương nhiên cỡ mẫu n >1 nên N-n <>
Thông thường, người ta dùng fpc để thực hiện trong các nghiên cứu mô tả (quan sát) để xác định trung bình, tỉ lệ như trong thắc mắc của các bạn và có lợi ích là
+ Hoặc thu hẹp khoảng tin cậy (tức là ước lượng chính xác hơn) với cùng độ tin cậy
+ Và, “đối ngẫu” với lợi ích trên, là giảm cỡ mẫu
Cụ thể như sau:
1)Từ trung bình của mẫu là x ta ước lượng 95% CI của trung bình quần thể . Công thức sau đây rất quen thuộc
x\mp z{\frac{s}{\sqrt{n}}}Â (1)
Tuy nhiên, như Cochran (sđd, tr. 27, công thức 2.23) đã chứng minh thì khoảng tin cậy này thực ra là
x\mp z{\frac{s}{\sqrt{n}}}\sqrt{fpc} (2)
Ghi chú: Một số tác giả định nghĩa fpc là căn bậc hai của (N-n)/(N-1) nên công thức (2) ở là nhân với fpc.
Để ý trong công thức (2) thì:
+ fpc nhỏ hơn 1 (xem trên) vì vậy khoảng tin cậy của (2) sẽ hẹp hơn, nói cách khác, nếu cùng cỡ mẫu mà ta xác định trước, thì với quần thể hữu hạn ta “có quyền” làm ước lượng của ta trở nên chính xác hơn, mà không thay đổi mức anpha cũng như các giả định khác. n càng gần N thì độ chính xác càng cao.
+ Nếu n quá nhỏ so với N (hoặc quần thể là vô hạn) thì fpc tiến đến 1, công thức (2) trở thành (1), việc hiệu chỉnh không có ý nghĩa gì.
+ Nếu n=N tức thì fpc = 0. Tức là ước lượng của chúng ta chính là bằng trung bình của quần thể, đó là cơ sở của một sự thực hiển nhiên là trong nghiên cứu toàn thể (census) thì giá trị của mẫu là giá trị của quần thể !
Cochran (sđd, tr. 25) đề nghị là trong trường hợp tỉ số lấy mẫu <5>
2) Từ tỉ lệ mẫu p ta ước lượng 95% CI của tỉ lệ quần thể. Công thức sau đây cũng rất quen thuộc:
p\mp z \sqrt {\frac {p(1-p)}{n}}
Công thức này có hiệu chỉnh fpc (Cochran, sđd, công thức 3.8, tr. 52):
p\mp z \sqrt {\frac {p(1-p)}{n}} \sqrt{fpc}
Các lưu ý đều tương tự như trên.
Như vậy, để dễ nhớ, nếu gọi phần sau dấu cộng trừ là margin of error như cách gọi trong tiếng Anh, thì ta có thể nhân margin of error với fpc, nếu tỉ lệ lấy mẫu lớn hơn 5%.
3) Trở lên trên, ta thấy nếu từ đầu ta không để ý đến fpc thì ta có khoảng tin cậy (a,b). Sau khi có hiệu chỉnh fpc thì ta có khoảng (c,d) hẹp hơn. Một logic hiển nhiên xuất hiện là nếu ta “hy sinh” độ hẹp của khoảng tin cậy, thì ta sẽ được lợi cỡ mẫu, tức là ta sẽ giảm n thành n’. Cochran (sđd, công thức 4.3, trang 76) đề nghị (cho cả trường hợp ước lượng trung bình và tỉ lệ):
 n'= \frac {n} {1+\frac{n}{N}}
chính là, dễ nhớ hơn:
 n'= \frac {n} {1+f}
Giả sử cỡ quần thể của ta là 2000, với các yêu cầu của nghiên cứu (như mức anpha, sai số…) ta có mẫu là 300. Tỉ lệ lấy mẫu là 15% (hơn 10%) ta có thể giảm cỡ mẫu xuống còn 300/(1+300/2000) gần bằng 261, tức là giảm được khoảng 39.
Bảng sau đây cho thấy vài ví dụ
Cỡ quần thể Cỡ mẫu trước Tỉ lệ lấy mẫu Cỡ mẫu điều chỉnh Số giảm
2000
300
15%
261
39
5000
300
6%
283
17
10000
300
3%
291
9
20000
300
2%
296
4
Với bảng trên thì như tại hai hàng dưới, tỉ lệ lấy mẫu nhỏ hơn 5% rõ ràng là chẳng đáng bõ công !
Vả lại, cần nhớ rằng kết luận từ mẫu của ta chỉ cho quần thể mà ta nghiên cứu. Nếu cho quần thể là hữu hạn thì đương nhiên kết luận đó chỉ xảy ra cho một quần thể cố định, với thời gian và không gian xác định … chẳng hạn như một cuộc bầu cử, một đợt kiểm tra sản phẩm v.v... (gọi là “warehouse studies” [2]).
TQP
Tham khảo:
[1] William G. Cochran (1977), Sampling Techniques, 3rd Editon, John Wiley and Sons
[2] Steven Simon (2008), http://www.childrens-mercy.org/stats/size/population.asp

Tìm kiếm nội dung trong blog

Đã xảy ra lỗi trong tiện ích này