Tag Archives: độ phù hợp mô hình tổng thể

Cách kiểm định hệ số R bình phương mô hình tổng thể có khác 0 hay không?

Khi ta chạy hồi quy, giả sử số mẫu là 300 mẫu, nếu chúng ta lấy mẫu ngẫu nhiên lặp lại của những người trả lời và ước tính từng phương trình hồi quy cho mỗi mẫu, chúng ta sẽ không mong đợi nhận được các giá trị chính xác giống nhau cho các hệ số hồi quy mỗi lần chạy.

Chúng ta cũng không mong đợi mức độ phù hợp mô hình tổng thể giống nhau. Từ quan điểm của nhà nghiên cứu, chúng ta chỉ lấy một mẫu ban đầu  và thực hiện chạy hồi quy trên mô hình dự đoán. Chỉ với một mẫu này, chúng ta cần kiểm tra giả thuyết rằng mô hình hồi quy của chúng ta có thể đại diện cho tổng thể thay vì chỉ một mẫu của chúng ta. Các kiểm định thống kê này có hai dạng cơ bản: bài kiểm tra hệ số xác định R bình phương và bài kiểm tra từng hệ số hồi quy.

Mức ý nghĩa thống kê của mô hình tổng thể

Để kiểm tra giả thuyết rằng lượng biến thiên được giải thích bởi mô hình hồi quy nhiều hơn so với dự đoán cơ sở (nghĩa là R2 lớn hơn 0 đáng kể), tỷ lệ F được tính như sau:

Kiểm tra hệ số xác định

Trong đó df_regression=số tham số ước lượng( bao gồm cả hệ số chặn) -1

df_residual=cỡ mẫu- số tham số ước lượng( bao gồm cả hệ số chặn)

SS:Sum of Squares

Giải thích:

Đây là tỉ số của các phương sai: Chia Sum of Squares (tổng bình phương) cho bậc tự do của nó, kết quả là được phương sai ước lượng. Công thức trên , tử số là phần phương sai giải tích bởi mô hình hồi quy, mẫu số là phần phương sai  không giải thích được.

Độ lớn của R bình phương: Theo trực giác, nếu tỷ lệ của phương sai giải thích được so với phương sai không giải thích được cao, thì phương sai giải thích được( hồi quy )phải có giá trị đáng kể trong việc giải thích biến phụ thuộc. Sử dụng phân phối F, chúng ta có thể thực hiện một kiểm định thống kê để xác định xem tỷ lệ này có khác 0 hay không (tức là có ý nghĩa thống kê). Trong những trường hợp có ý nghĩa thống kê, nhà nghiên cứu có thể cảm thấy tin tưởng rằng mô hình hồi quy không chỉ dành riêng cho mẫu này,mà còn sẽ có ý nghĩa trong nhiều mẫu từ tổng thể này.

Đánh giá ý nghĩa thực tế

Mặc dù giá trị R2 lớn hơn dẫn đến giá trị F cao hơn, nhà nghiên cứu phải dựa trên đánh giá mô hình  về ý nghĩa thực tế tách biệt với ý nghĩa thống kê. Bởi vì ý nghĩa thống kê thực sự là một đánh giá về tác động của sai số lấy mẫu sampling error, nhà nghiên cứu phải thận trọng khi luôn giả định rằng các kết quả có ý nghĩa thống kê cũng có ý nghĩa thực tế. Thận trọng này đặc biệt có liên quan trong trường hợp mẫu lớn mà giá trị R2 thậm chí nhỏ (ví dụ, 5% hoặc 10%) có thể có ý nghĩa thống kê, nhưng mức giải thích như vậy sẽ không được chấp nhận cho các kết luận kiến nghị đề xuất giải pháp trên cơ sở thực tế.  Nhắc lại sự liên quan giữa R2 và chỉ số F, công thức của R2 = SS_regression/(SS_regression+SS_residual)

Từ các chỉ số này ta tính được mức ý nghĩa thống kê của kiểm định F, nếu ra số <5% thì ta kết luận là mô hình phù hợp với tổng thể, nói cách khác là giá trị R2 của tổng thể khác 0.

Sau đây là ví dụ, khi chạy hồi quy ra được bảng sau, ta sẽ tính thủ công các giá trị để ra được mức ý nghĩa của kiểm định F nhé.

Các giá trị đã có: SS_regression=61.6851 , SS_residual=47.68686, df_regression=5, df_residual=198.

Từ đó ta tính được giá trị F theo công thức ở hình trên là (61.6851/5)/(47.68686/198)=51.22 như trên.

Sau đó trong excel ta dùng hàm F.DIST.RT(F, df_regression,df_residual)= F.DIST.RT(51.22, 5,198)=6.6E-34 như trên hình. Giá trị này <5% nên kết luận là mô hình phù hợp với tổng thể( R2 khác 0) nhé.

Bài kiểm tra từng hệ số hồi quy

Trên đây là đánh giá mô hình tổng thể, còn nếu đánh giá hệ số hồi quy thì cứ nhìn sig. ở bảng hồi quy sau, sig <5% thì kết luận là biến đó có tác động đến biến phụ thuộc nhé.