Cỡ mẫu hồi quy nhị phân

Hồi quy logistic, giống như mọi kỹ thuật đa biến khác, phải xem xét kích thước của mẫu đang được phân tích. Khi xử lý các mô hình thống kê, các ước lượng tham số từ các mẫu rất nhỏ có rất nhiều sai số lấy mẫu sampling errors. Cỡ mẫu rất lớn làm tăng sức mạnh thống kê để bất kỳ sự khác biệt nào, cho dù có liên quan đến thực tế hay không, vẫn được coi là có ý nghĩa thống kê. Tuy nhiên, hầu hết các tình huống nghiên cứu nằm ở đâu đó giữa cỡ mẫu rất nhỏ và rất lớn này này, có nghĩa là ta phải xem xét tác động của cỡ mẫu đối với kết quả, cả ở cấp độ tổng thể và trên cơ sở từng nhóm.

Cỡ mẫu tổng thể hồi quy nhị phân

Khía cạnh đầu tiên của cỡ mẫu là cỡ mẫu tổng thể cần thiết để hỗ trợ đầy đủ cho việc ước lượng mô hình logistic. Một yếu tố phân biệt hồi quy logistic với các kỹ thuật khác là việc sử dụng khả năng xảy ra tối đa maximum likelihood estimate (MLE) làm kỹ thuật ước lượng. MLE yêu cầu các mẫu lớn hơn sao cho tất cả mọi thứ đều bằng nhau, hồi quy logistic sẽ yêu cầu kích thước mẫu lớn hơn hồi quy bội. Ví dụ, Hosmer và Lemeshow khuyến nghị kích thước mẫu lớn hơn 400, mặc dù hồi quy logistic được áp dụng thành công trong nhiều trường hợp có mẫu nhỏ hơn.

Kích thước mẫu trên mỗi nhóm của biến phụ thuộc

Mặc dù kích thước mẫu tổng thể là quan trọng, nhưng một vấn đề thường gặp hơn liên quan đến kích thước mẫu trên mỗi nhóm của biến phụ thuộc. Nhiều khi hồi quy logistic được sử dụng cho những gì được gọi là một tình huống sự kiện hiếm gặp – trong đó sự kiện quan tâm có tỷ lệ xảy ra rất thấp (ví dụ: thiên tai, điều kiện kinh tế khắc nghiệt hoặc các sự kiện tự nhiên hoặc nhân tạo rất hiếm khi xảy ra).

Cỡ mẫu được khuyến nghị cho mỗi nhóm là ít nhất 10  quan sát cho mỗi tham số ước tính. Điều này lớn hơn nhiều so với hồi quy bội, có tối thiểu năm quan sát cho mỗi tham số và đó là đối với mẫu tổng thể, không phải cỡ mẫu cho từng nhóm, như đã thấy với hồi quy logistic.

Tóm lại

Cỡ mẫu tổng thể phải là 400 để đạt được kết quả tốt nhất với ước lượng khả năng xảy ra tối đa, do đó việc sử dụng với các cỡ mẫu nhỏ hơn nên lưu ý đến hiệu quả thấp hơn trong việc ước lượng các hệ số của mô hình.

Việc xem xét kích thước mẫu tập trung nhiều hơn vào quy mô của mỗi nhóm kết quả, nhóm này phải có số lượng gấp 10 lần số hệ số mô hình ước tính.