Đa cộng tuyến và công thức tính hệ số tolerance VIF chi tiết

Mục lục

Xác định tính cộng tuyến

Phương tiện đơn giản và rõ ràng nhất để xác định tính cộng tuyến là kiểm tra ma trận tương quan cho các biến độc lập. Chúng ta có thể tìm kiếm các biến khác có tương quan cao với một biến độc lập cụ thể, nhưng điều đó chỉ phản ánh tính cộng tuyến. Sự hiện diện của các mối tương quan cao (nói chung là .70 và cao hơn) là dấu hiệu đầu tiên của tính cộng tuyến đáng kể. Tuy nhiên, các giá trị tương quan cao không tồn tại thì không đảm bảo là không có tính cộng tuyến. Đa cộng tuyến là tính cộng tuyến có thể là do tác động tổng hợp của hai hoặc nhiều biến độc lập.

Để đánh giá tính đa cộng tuyến, chúng ta cần một thước đo thể hiện mức độ mà mỗi biến độc lập được giải thích bằng tập hợp các biến độc lập khác. Nói một cách dễ hiểu, mỗi biến độc lập sẽ trở thành một biến phụ thuộc và được hồi quy so với các biến độc lập còn lại.

Cách tiếp cận để đánh giá tính đa cộng tuyến: các thước đo tổng thể (hệ số tolerance và nghịch đảo của nó, hệ số phóng đại phương sai variance inflation factor) của đa cộng tuyến cho thấy mức độ đa cộng tuyến của mỗi biến.

Chẩn đoán đa cộng tuyến đầu tiên phải được thực hiện với các phép đo tổng thể về đa cộng tuyến cho mỗi biến. Mặc dù các thước đo này không cung cấp bất kỳ thông tin nào về nguồn gốc của đa cộng tuyến (tức là những biến nào khác cộng tuyến), nhưng chúng cung cấp một dấu hiệu nếu có tồn tại đa cộng tuyến và nếu cần kiểm tra thêm.

Giá trị dung sai tolerance

Phép đo tổng thể đầu tiên của đa cộng tuyến là tolerance, được định nghĩa là lượng biến thiên của biến độc lập đã chọn không được giải thích bởi các biến độc lập khác. Do đó, đối với bất kỳ mô hình hồi quy nào có hai hoặc nhiều biến độc lập, dung sai có thể được xác định đơn giản theo hai bước:

-Bước 1: Lấy từng biến độc lập tại một thời điểm và tính giá trị R bình phương R2 của phương trình mà biến độc lập đó là biến phụ thuộc, tất cả các biến độc lập khác là biến độc lập. Như vậy giá trị R2 này là lượng của biến độc lập đó được giải thích bởi tất cả các biến độc lập khác trong mô hình hồi quy. Trong quá trình này, biến độc lập đã chọn được biến thành một biến phụ thuộc được dự đoán bởi tất cả các biến độc lập còn lại.

Bước 2: Dung sai tolerance có công thức là 1-R2 . Ví dụ: nếu các biến độc lập khác giải thích 25% của biến độc lập X1, thì 1-R2 =1-0.25=0.75,vậy giá trị dung sai của X1 là 0.75 Giá trị dung sai phải cao, có nghĩa là một mức độ đa cộng tuyến nhỏ (tức là, các biến độc lập khác không có chung một lượng đáng kể nào của phương sai được chia sẻ). Việc xác định các mức dung sai thích hợp sẽ được đề cập trong phần sau.

Hệ số phóng đại phương sai Variance Inflation Factor

Một thước đo thứ hai của đa cộng tuyến là hệ số phóng đại phương sai (VIF), được tính toán đơn giản là nghịch đảo của giá trị dung sai tolerance ở trên. Trong ví dụ trước với dung sai là 0.75, VIF sẽ là 1/0.75 = 1.33. Do đó, các trường hợp đa cộng tuyến ở mức độ cao hơn được phản ánh trong các giá trị dung sai thấp hơn và giá trị VIF cao hơn.

Có một công thức là căn bậc 2 của VIF chính là mức độ sai số chuẩn standard error bị tăng lên do ảnh hưởng của đa cộng tuyến, mà khi sai số tiêu chuẩn tăng lên, nó làm cho khoảng tin cậy xung quanh các hệ số ước tính lớn hơn, do đó khó chứng minh rằng hệ số khác 0 đáng kể. Do đó, đó là hệ số VIF cần nhỏ thì việc ước lượng hồi quy mới đáng tin cậy.

Ảnh hưởng của Đa cộng tuyến

Các tác động của đa cộng tuyến có thể được phân loại theo cách ước lượng hoặc giải thích. Tuy nhiên, trong cả hai trường hợp, lý do cơ bản là giống nhau: Đa cộng tuyến tạo ra phương sai “chia sẻ” giữa các biến, do đó làm giảm khả năng dự đoán số đo phụ thuộc cũng như xác định vai trò tương đối của từng biến độc lập.

Khi đa cộng tuyến tăng lên, tổng lượng biến thiên được giải thích giảm (khi ước lượng). Hơn nữa, số lượng biến thiên duy nhất của các biến độc lập được giảm xuống mức làm cho việc ước lượng các tác động riêng lẻ của chúng trở nên khá khó khăn (giải thích). Các phần sau đề cập chi tiết hơn những tác động này.

Các ảnh hưởng đến việc giải thích chủ yếu liên quan đến khả năng của thủ tục hồi quy và nhà nghiên cứu đại diện và hiểu các tác động của từng biến độc lập trong hồi quy. Khi đa cộng tuyến xảy ra (ngay cả ở mức tương đối thấp là .30), quá trình xác định các tác động riêng biệt của các biến độc lập ngày càng trở nên khó khăn. Điều này có tác động đến một số khía cạnh của việc giải thích.

Giải thích các hệ số: các hệ số hồi quy đại diện cho lượng biến thiên duy nhất được giải thích bởi mỗi biến độc lập. Do đa cộng tuyến dẫn đến phần biến thiên được chia sẻ cao hơn và mức độ thấp hơn của lượng biến thiên duy nhất, tác động của các biến độc lập riêng lẻ trở nên ít phân biệt hơn. Thậm chí có thể tìm thấy những trường hợp đa cộng tuyến cao đến mức không có hệ số hồi quy độc lập nào có ý nghĩa thống kê, nhưng mô hình hồi quy tổng thể có mức độ dự đoán chính xác đáng kể.

Đa cộng tuyến bao nhiêu là nhiều bao nhiêu là ít?

Bởi vì giá trị dung sai là lượng của một biến số không giải thích được bởi các biến độc lập khác, giá trị dung sai nhỏ (và do đó giá trị VIF lớn vì dung sai =1/VIF) biểu thị tính cộng tuyến cao. Một ngưỡng giới hạn chung là giá trị dung sai là .10, tương ứng với giá trị VIF là 10. Tuy nhiên, đặc biệt khi kích thước mẫu nhỏ hơn, nhà nghiên cứu có thể muốn hạn chế hơn do sự gia tăng sai số tiêu chuẩn do đa cộng tuyến.

Khi đánh giá các mối tương quan hai biến, cần xem xét hai vấn đề. Đầu tiên, các mối tương quan của tầm 0.70 (đại diện cho phương sai “được chia sẻ” là 50%) có thể ảnh hưởng đến cả việc giải thích và ước tính kết quả hồi quy. Hơn nữa, các mối tương quan thậm chí thấp hơn cũng có thể có tác động nếu mối tương quan giữa hai biến độc lập lớn hơn mối tương quan của một trong hai biến độc lập với số đo phụ thuộc.

Biện pháp khắc phục Đa cộng tuyến

Các biện pháp khắc phục đa cộng tuyến bao gồm từ việc sửa đổi phương trình hồi quy đến việc sử dụng các thủ tục ước lượng chuyên biệt. Khi đã xác định được mức độ đa cộng tuyến, nhà nghiên cứu có một số lựa chọn:

Xóa biến

Bỏ qua một hoặc nhiều biến độc lập có tương quan cao và xác định các biến độc lập khác để giúp dự đoán. Tuy nhiên, nhà nghiên cứu nên cẩn thận khi thực hiện theo tùy chọn này để tránh tạo ra lỗi khi xóa một hoặc nhiều biến độc lập.

Giảm số biến độc lập bằng cách gom lại

Gom nhóm biến độc lập là việc thay thế các biến độc lập ban đầu bằng các biến đại diện. Các biến tổng hợp được ước tính để “kết hợp” các biến có tính cộng tuyến cao thành một biến duy nhất để có thể giữ lại tính hiệu quả dự đoán của chúng, nhưng không có đa cộng tuyến( vì các biến đa cộng tuyến cao đã được gom lại)

Sử dụng phương pháp ước lượng khác

Sử dụng phương pháp phân tích phức tạp hơn như hồi quy Bayesian hoặc hồi quy trên các thành phần chính để thu được mô hình phản ánh rõ ràng hơn tác động đơn giản của các biến độc lập.

Không làm gì cả

Chỉ sử dụng mô hình với các biến độc lập có tương quan cao để dự đoán (tức là không cố gắng giải thích các hệ số hồi quy), đồng thời ghi nhận mức độ thấp hơn của khả năng dự đoán tổng thể. Sử dụng các mối tương quan đơn giản giữa mỗi biến độc lập và biến phụ thuộc để hiểu mối quan hệ biến phụ thuộc – độc lập.

Mỗi lựa chọn này yêu cầu nhà nghiên cứu phải đưa ra phán đoán về các biến có trong biến hồi quy, việc này luôn phải được dựa theo cơ sở lý thuyết của nghiên cứu.