Chuyển đến nội dung chính

Visitors (statistics)

Liên hệ giữa cỡ mẫu và cỡ quần thể

Bài viết trích từ Statistics.vn

Liên hệ giữa cỡ mẫu và cỡ quần thể



Một thắc mắc được một bạn ở blog ytcchue.blogspot.com gởi cho chúng tôi, nguyên văn như sau:
"Ở nghiên cứu mô tả cắt ngang một tỷ lệ với với phương pháp chọn mẫu ngẫu nhiên đơn (Là phương pháp chọn mẫu trong đó các cá thể được chọn như nhau vào mẫu nghiên cứu) .Phiền các anh/chị/đồng nghiệp làm rõ Mối liên hệ nào giữa số đơn vị mẫu nghiên cứu và số đơn vị trong quần thể?- trích từ ytecongcong.com"
Trước hết xin cảm ơn các bạn đã gởi thắc mắc. Chúng tôi xin trả lời như sau
Thông thường các nghiên cứu đều nghiên cứu trên quần thể vô hạn hoặc được cho là vô hạn. Ví dụ nghiên cứu tác dụng của một loại thuốc đối với việc hạ huyết áp thì chắc chắn là ta muốn nói đến một quần thể vô hạn người bị cao huyết áp. Hoặc, một quần thể hữu hạn nhưng với số lượng quá lớn, cỡ mẫu chọn ra từ đó có tương quan rất nhỏ so với quần thể thì quần thể cũng được coi là vô hạn. Ví dụ nghiên cứu chiều cao của người Việt Nam vào năm 2011 với cỡ mẫu 5.000 từ gần 90 triệu dân, thì quần thể cũng được coi là vô hạn.
Và như một hệ quả, các công thức ước lượng cho thông số của quần thể thường là vắng mặt cỡ của quần thể. Nhưng như thấy dưới đây, Cochran [1] có cách tiếp cận bằng cách cho quần thể là hữu hạn. Và công thức tính toán sẽ trở thành như các công thức ta thường thấy khi quần thể tiến đến vô hạn hoặc quá lớn so với mẫu.
Trong thực tế, mặc dù không nhiều, cũng có thể có trường hợp như ta muốn xác định tỉ lệ mắc bệnh của một dịch bệnh tại một xã nhỏ nào đó trong một thời điểm cụ thể, Hoặc ta muốn nghiên cứu tỉ lệ hỏng của 1000 lọ thuốc thuộc một lot sản xuất cụ thể. thì có thể việc xác định quần thể là hữu hạn sẽ là thích hợp.
Các kết quả sau đây dựa vào một tác phẩm kinh điển của Cochran, [1] một nhà thống kê lớn gốc Scotland nhưng phần lớn thời gian sống và làm việc tại Mỹ, nổi tiếng với kiểm định Cochran hoặc Cochran Q và định lý Cochran, xem tiểu sử tại đây).
Trong kỹ thuật lấy mẫu người ta định nghĩa tỉ lệ lấy mẫu (sampling fraction) là tỉ lệ giữa mẫu và quần thể.
f =n/N
Với n là cỡ mẫu và N là cỡ của quần thể.
Mặt khác, fpc: finite population correction (hiệu chỉnh cho quần thể hữu hạn, có tác giả cho thêm chữ f, factor thành: fpcf ) được định nghĩa là
fpc = (N-n)/(N-1)
đôi khi chỉ là fpc = (N-n)/N. (Định nghĩa của Cochran, có tác giả định nghĩa với căn bậc hai)
Dễ thấy là fpc luôn nhỏ hơn 1 (vì đương nhiên cỡ mẫu n >1 nên N-n <>
Thông thường, người ta dùng fpc để thực hiện trong các nghiên cứu mô tả (quan sát) để xác định trung bình, tỉ lệ như trong thắc mắc của các bạn và có lợi ích là
+ Hoặc thu hẹp khoảng tin cậy (tức là ước lượng chính xác hơn) với cùng độ tin cậy
+ Và, “đối ngẫu” với lợi ích trên, là giảm cỡ mẫu
Cụ thể như sau:
1)Từ trung bình của mẫu là x ta ước lượng 95% CI của trung bình quần thể . Công thức sau đây rất quen thuộc
x\mp z{\frac{s}{\sqrt{n}}}Â (1)
Tuy nhiên, như Cochran (sđd, tr. 27, công thức 2.23) đã chứng minh thì khoảng tin cậy này thực ra là
x\mp z{\frac{s}{\sqrt{n}}}\sqrt{fpc} (2)
Ghi chú: Một số tác giả định nghĩa fpc là căn bậc hai của (N-n)/(N-1) nên công thức (2) ở là nhân với fpc.
Để ý trong công thức (2) thì:
+ fpc nhỏ hơn 1 (xem trên) vì vậy khoảng tin cậy của (2) sẽ hẹp hơn, nói cách khác, nếu cùng cỡ mẫu mà ta xác định trước, thì với quần thể hữu hạn ta “có quyền” làm ước lượng của ta trở nên chính xác hơn, mà không thay đổi mức anpha cũng như các giả định khác. n càng gần N thì độ chính xác càng cao.
+ Nếu n quá nhỏ so với N (hoặc quần thể là vô hạn) thì fpc tiến đến 1, công thức (2) trở thành (1), việc hiệu chỉnh không có ý nghĩa gì.
+ Nếu n=N tức thì fpc = 0. Tức là ước lượng của chúng ta chính là bằng trung bình của quần thể, đó là cơ sở của một sự thực hiển nhiên là trong nghiên cứu toàn thể (census) thì giá trị của mẫu là giá trị của quần thể !
Cochran (sđd, tr. 25) đề nghị là trong trường hợp tỉ số lấy mẫu <5>
2) Từ tỉ lệ mẫu p ta ước lượng 95% CI của tỉ lệ quần thể. Công thức sau đây cũng rất quen thuộc:
p\mp z \sqrt {\frac {p(1-p)}{n}}
Công thức này có hiệu chỉnh fpc (Cochran, sđd, công thức 3.8, tr. 52):
p\mp z \sqrt {\frac {p(1-p)}{n}} \sqrt{fpc}
Các lưu ý đều tương tự như trên.
Như vậy, để dễ nhớ, nếu gọi phần sau dấu cộng trừ là margin of error như cách gọi trong tiếng Anh, thì ta có thể nhân margin of error với fpc, nếu tỉ lệ lấy mẫu lớn hơn 5%.
3) Trở lên trên, ta thấy nếu từ đầu ta không để ý đến fpc thì ta có khoảng tin cậy (a,b). Sau khi có hiệu chỉnh fpc thì ta có khoảng (c,d) hẹp hơn. Một logic hiển nhiên xuất hiện là nếu ta “hy sinh” độ hẹp của khoảng tin cậy, thì ta sẽ được lợi cỡ mẫu, tức là ta sẽ giảm n thành n’. Cochran (sđd, công thức 4.3, trang 76) đề nghị (cho cả trường hợp ước lượng trung bình và tỉ lệ):
 n'= \frac {n} {1+\frac{n}{N}}
chính là, dễ nhớ hơn:
 n'= \frac {n} {1+f}
Giả sử cỡ quần thể của ta là 2000, với các yêu cầu của nghiên cứu (như mức anpha, sai số…) ta có mẫu là 300. Tỉ lệ lấy mẫu là 15% (hơn 10%) ta có thể giảm cỡ mẫu xuống còn 300/(1+300/2000) gần bằng 261, tức là giảm được khoảng 39.
Bảng sau đây cho thấy vài ví dụ
Cỡ quần thể Cỡ mẫu trước Tỉ lệ lấy mẫu Cỡ mẫu điều chỉnh Số giảm
2000
300
15%
261
39
5000
300
6%
283
17
10000
300
3%
291
9
20000
300
2%
296
4
Với bảng trên thì như tại hai hàng dưới, tỉ lệ lấy mẫu nhỏ hơn 5% rõ ràng là chẳng đáng bõ công !
Vả lại, cần nhớ rằng kết luận từ mẫu của ta chỉ cho quần thể mà ta nghiên cứu. Nếu cho quần thể là hữu hạn thì đương nhiên kết luận đó chỉ xảy ra cho một quần thể cố định, với thời gian và không gian xác định … chẳng hạn như một cuộc bầu cử, một đợt kiểm tra sản phẩm v.v... (gọi là “warehouse studies” [2]).
TQP
Tham khảo:
[1] William G. Cochran (1977), Sampling Techniques, 3rd Editon, John Wiley and Sons
[2] Steven Simon (2008), http://www.childrens-mercy.org/stats/size/population.asp

Nhận xét

Bài đăng phổ biến từ blog này

Phần mềm dinh dưỡng tính khẩu phần ăn - Hướng dẫn phần mềm Vietnam Eiyokun

bạn muốn biết bạn đã ăn bao nhiêu kcal protit, lipip, gluxit, bao nhiêu g vitamin và vô số chất dinh dưỡng khác trong bữa ăn hằng ngày? làm thế nào để tính được 1 người nặng 100 kg cao 1m80 mỗi ngày cần bao nhiêu protit, lipip, gluxit? 1 công việc quá đơn giản đối với 1 nhà dinh dưỡng chuyên nghiệp. vấn đề là chúng ta thường là các nhà dinh dưỡng không chuyên. nhưng với phần mềm Vietnam Eiyokun tất cả chúng ta đều trở thành những nhà bán chuyên nghiệp. các bạn download hướng dẫn tại đây Bản cài đặt tại đây . pass mở file là itcchue code là A020400312

Các phép tính đơn giản ứng dụng trong SPSS - Lệnh Compute

Xin nhắc lại đây là những bài viết ở mức độ hướng dẫn cơ bản và mang tính chất cá nhân nên không thể tránh sai sót. Chỉ là mang tính chất xây dựng nguồn tài liệu của YTCC Huế Chủ đề hôm nay là thực hiện các phép tính cơ bản: Đơn giản muốn tính BMI trong SPSS. Bạn làm thế nào, trong khi đã có dữ kiện là Cân nặng, chiều cao (cm). BMI = (Cân nặng/(Chiều cao* chiều cao)*10000) Mô tả bằng hình ảnh trong SPSS. H1:  H2 Bạn trở lại cửa sổ Variable View sẽ thấy 1 biến mới "BMI" xuất hiện. Nó là kết quả của việc thực hiện thuât toán trên. Xin lỗi là công thức trên thiếu 1 dấu ")" cuối cùng trong hình 2. Thks đã đọc TBT Ytcchue.blogspot.com

Recode – mã hoá lại biến trong Stata

Lệnh recode giúp ta mã hoá lại các giá trị của biến theo những điều kiện được đưa ra. Giá trị nào không phù hợp với biểu thức điều kiện sẽ không bị thay đổi, ngoại trừ phù hợp với những điều kiện kèm theo. Câu lệnh như sau: recode danh sách biến (biểu thức điều kiện) [biểu thức điều kiện] [if] [in] [, tuỳ chọn]