Tag Archives: đa cộng tuyến

Đa cộng tuyến và công thức tính hệ số tolerance VIF chi tiết

Xác định tính cộng tuyến

Phương tiện đơn giản và rõ ràng nhất để xác định tính cộng tuyến là kiểm tra ma trận tương quan cho các biến độc lập. Chúng ta có thể tìm kiếm các biến khác có tương quan cao với một biến độc lập cụ thể, nhưng điều đó chỉ phản ánh tính cộng tuyến. Sự hiện diện của các mối tương quan cao (nói chung là .70 và cao hơn) là dấu hiệu đầu tiên của tính cộng tuyến đáng kể. Tuy nhiên, các giá trị tương quan cao không tồn tại thì không đảm bảo là không có tính cộng tuyến. Đa cộng tuyến là tính cộng tuyến có thể là do tác động tổng hợp của hai hoặc nhiều biến độc lập.

Để đánh giá tính đa cộng tuyến, chúng ta cần một thước đo thể hiện mức độ mà mỗi biến độc lập được giải thích bằng tập hợp các biến độc lập khác. Nói một cách dễ hiểu, mỗi biến độc lập sẽ trở thành một biến phụ thuộc và được hồi quy so với các biến độc lập còn lại.

Cách tiếp cận để đánh giá tính đa cộng tuyến: các thước đo tổng thể (hệ số tolerance và nghịch đảo của nó, hệ số phóng đại phương sai variance inflation factor) của đa cộng tuyến cho thấy mức độ đa cộng tuyến của mỗi biến.

Chẩn đoán đa cộng tuyến đầu tiên phải được thực hiện với các phép đo tổng thể về đa cộng tuyến cho mỗi biến. Mặc dù các thước đo này không cung cấp bất kỳ thông tin nào về nguồn gốc của đa cộng tuyến (tức là những biến nào khác cộng tuyến), nhưng chúng cung cấp một dấu hiệu nếu có tồn tại đa cộng tuyến và nếu cần kiểm tra thêm.

Giá trị dung sai tolerance

Phép đo tổng thể đầu tiên của đa cộng tuyến là tolerance, được định nghĩa là lượng biến thiên của biến độc lập đã chọn không được giải thích bởi các biến độc lập khác. Do đó, đối với bất kỳ mô hình hồi quy nào có hai hoặc nhiều biến độc lập, dung sai có thể được xác định đơn giản theo hai bước:

-Bước 1: Lấy từng biến độc lập tại một thời điểm và tính giá trị R bình phương R2 của phương trình mà biến độc lập đó là biến phụ thuộc, tất cả các biến độc lập khác là biến độc lập. Như vậy giá trị R2 này là lượng của biến độc lập đó được giải thích bởi tất cả các biến độc lập khác trong mô hình hồi quy. Trong quá trình này, biến độc lập đã chọn được biến thành một biến phụ thuộc được dự đoán bởi tất cả các biến độc lập còn lại.

Bước 2: Dung sai tolerance có công thức là 1-R2 . Ví dụ: nếu các biến độc lập khác giải thích 25% của biến độc lập X1, thì 1-R2 =1-0.25=0.75,vậy giá trị dung sai của X1 là 0.75 Giá trị dung sai phải cao, có nghĩa là một mức độ đa cộng tuyến nhỏ (tức là, các biến độc lập khác không có chung một lượng đáng kể nào của phương sai được chia sẻ). Việc xác định các mức dung sai thích hợp sẽ được đề cập trong phần sau.

Hệ số phóng đại phương sai Variance Inflation Factor

Một thước đo thứ hai của đa cộng tuyến là hệ số phóng đại phương sai (VIF), được tính toán đơn giản là nghịch đảo của giá trị dung sai tolerance ở trên. Trong ví dụ trước với dung sai là 0.75, VIF sẽ là 1/0.75 = 1.33. Do đó, các trường hợp đa cộng tuyến ở mức độ cao hơn được phản ánh trong các giá trị dung sai thấp hơn và giá trị VIF cao hơn.

Có một công thức là căn bậc 2 của VIF chính là mức độ sai số chuẩn standard error bị tăng lên do ảnh hưởng của đa cộng tuyến, mà khi sai số tiêu chuẩn tăng lên, nó làm cho khoảng tin cậy xung quanh các hệ số ước tính lớn hơn, do đó khó chứng minh rằng hệ số khác 0 đáng kể. Do đó, đó là hệ số VIF cần nhỏ thì việc ước lượng hồi quy mới đáng tin cậy.

Ảnh hưởng của Đa cộng tuyến

Các tác động của đa cộng tuyến có thể được phân loại theo cách ước lượng hoặc giải thích. Tuy nhiên, trong cả hai trường hợp, lý do cơ bản là giống nhau: Đa cộng tuyến tạo ra phương sai “chia sẻ” giữa các biến, do đó làm giảm khả năng dự đoán số đo phụ thuộc cũng như xác định vai trò tương đối của từng biến độc lập.

Khi đa cộng tuyến tăng lên, tổng lượng biến thiên được giải thích giảm (khi ước lượng). Hơn nữa, số lượng biến thiên duy nhất của các biến độc lập được giảm xuống mức làm cho việc ước lượng các tác động riêng lẻ của chúng trở nên khá khó khăn (giải thích). Các phần sau đề cập chi tiết hơn những tác động này.

Các ảnh hưởng đến việc giải thích chủ yếu liên quan đến khả năng của thủ tục hồi quy và nhà nghiên cứu đại diện và hiểu các tác động của từng biến độc lập trong hồi quy. Khi đa cộng tuyến xảy ra (ngay cả ở mức tương đối thấp là .30), quá trình xác định các tác động riêng biệt của các biến độc lập ngày càng trở nên khó khăn. Điều này có tác động đến một số khía cạnh của việc giải thích.

Giải thích các hệ số: các hệ số hồi quy đại diện cho lượng biến thiên duy nhất được giải thích bởi mỗi biến độc lập. Do đa cộng tuyến dẫn đến phần biến thiên được chia sẻ cao hơn và mức độ thấp hơn của lượng biến thiên duy nhất, tác động của các biến độc lập riêng lẻ trở nên ít phân biệt hơn. Thậm chí có thể tìm thấy những trường hợp đa cộng tuyến cao đến mức không có hệ số hồi quy độc lập nào có ý nghĩa thống kê, nhưng mô hình hồi quy tổng thể có mức độ dự đoán chính xác đáng kể.

Vậy đa cộng tuyến bao nhiêu là nhiều bao nhiêu là ít?

Bởi vì giá trị dung sai là lượng của một biến số không giải thích được bởi các biến độc lập khác, giá trị dung sai nhỏ (và do đó giá trị VIF lớn vì dung sai =1/VIF) biểu thị tính cộng tuyến cao. Một ngưỡng giới hạn chung là giá trị dung sai là .10, tương ứng với giá trị VIF là 10. Tuy nhiên, đặc biệt khi kích thước mẫu nhỏ hơn, nhà nghiên cứu có thể muốn hạn chế hơn do sự gia tăng sai số tiêu chuẩn do đa cộng tuyến.

Khi đánh giá các mối tương quan hai biến, cần xem xét hai vấn đề. Đầu tiên, các mối tương quan của tầm 0.70 (đại diện cho phương sai “được chia sẻ” là 50%) có thể ảnh hưởng đến cả việc giải thích và ước tính kết quả hồi quy. Hơn nữa, các mối tương quan thậm chí thấp hơn cũng có thể có tác động nếu mối tương quan giữa hai biến độc lập lớn hơn mối tương quan của một trong hai biến độc lập với số đo phụ thuộc.

Biện pháp khắc phục Đa cộng tuyến

Các biện pháp khắc phục đa cộng tuyến bao gồm từ việc sửa đổi phương trình hồi quy đến việc sử dụng các thủ tục ước lượng chuyên biệt. Khi đã xác định được mức độ đa cộng tuyến, nhà nghiên cứu có một số lựa chọn:

Xóa biến

Bỏ qua một hoặc nhiều biến độc lập có tương quan cao và xác định các biến độc lập khác để giúp dự đoán. Tuy nhiên, nhà nghiên cứu nên cẩn thận khi thực hiện theo tùy chọn này để tránh tạo ra lỗi khi xóa một hoặc nhiều biến độc lập.

 Giảm số biến độc lập bằng cách gom lại

Gom nhóm biến độc lập là việc thay  thế các biến độc lập ban đầu bằng các biến đại diện. Các biến tổng hợp được ước tính để “kết hợp” các biến có tính cộng tuyến cao thành một biến duy nhất để có thể giữ lại tính hiệu quả dự đoán của chúng, nhưng không có đa cộng tuyến( vì các biến đa cộng tuyến cao đã được gom lại)

Sử dụng phương pháp ước lượng khác

Sử dụng phương pháp phân tích phức tạp hơn như hồi quy Bayesian hoặc hồi quy trên các thành phần chính để thu được mô hình phản ánh rõ ràng hơn tác động đơn giản của các biến độc lập.

Không làm gì cả

Chỉ sử dụng mô hình với các biến độc lập có tương quan cao để dự đoán (tức là không cố gắng giải thích các hệ số hồi quy), đồng thời ghi nhận mức độ thấp hơn của khả năng dự đoán tổng thể. Sử dụng các mối tương quan đơn giản giữa mỗi biến độc lập và biến phụ thuộc để hiểu mối quan hệ biến phụ thuộc – độc lập.

Mỗi lựa chọn này yêu cầu nhà nghiên cứu phải đưa ra phán đoán về các biến có trong biến hồi quy, việc này luôn phải được dựa theo cơ sở lý thuyết của nghiên cứu.

Đa cộng tuyến: định nghĩa, cách phát hiện, hậu quả, cách khắc phục

Nhóm MBA Hỗ Trợ SPSS giới thiệu cách phát hiện đa cộng tuyến khi phân tích hồi quy, đồng thời giải thích hậu quả, cách khắc phục đa cộng tuyến.

Định nghĩa đa cộng tuyến là gì?


Trong mô hình hồi quy, nếu các biến độc lập có quan hệ chặt với nhau, các biến độc lập có mối quan hệ tuyến tính, nghĩa là các biến độc lập có tương quan chặt, mạnh với nhau thì sẽ có hiện tượng đa cộng tuyến, đó là hiện tượng các biến độc lập trong mô hình phụ thuộc lẫn nhau và thể hiện được dưới dạng hàm số. Ví dụ có hai biến độc lập A và B, khi A tăng thì B tăng, A giảm thì B giảm…. thì đó là một dấu hiệu của đa cộng tuyến. Nói một cách khác là hai biến độc lập có quan hệ rất mạnh với nhau, đúng ra hai biến này nó phải là 1 biến nhưng thực tế trong mô hình nhà nghiên cứu lại tách làm 2 biến. Hiện tượng đa cộng tuyến vi phạm giả định của mô hình hồi qui tuyến tính cổ điển là các biến độc lập không có mối quan hệ tuyến tính với nhau.

Cách phát hiện đa cộng tuyến

Có hai cách: dựa vào hệ số phóng đại phương sai VIF, hoặc dựa vào ma trận hệ số tương quan. Tuy nhiên cách dùng ma trận hệ số tương quan ít được sử dụng, chủ yếu sửa dụng cách nhận xét chỉ số VIF.

Cách 1

Dựa vào VIF ,khi thực hiện hồi quy đa biến, ta nhấn vào nút Statistics , xong check vào Collinearity diagnostics.
 

Kết quả ra như sau:

Nếu hệ số phóng đại phương sai VIF (variance inflation factor) > 2 thì có dấu hiệu đa cộng tuyến, đây là điều không mong muốn. Nếu VIF > 10 thì chắc chắn có đa cộng tuyến. Nếu VIF <2: không bị đa cộng tuyến

Ta cũng có thể xem xét giá trị Tolerance bằng công thức Tolerance=1/VIF . Hệ số này nằm cột bên trái của hệ số VIF. Tương ứng là: nếu hệ số Tolerance bé hơn 0.5 thì có dấu hiệu đa cộng tuyến, đây là điều không mong muốn. Nếu giá trị Tolerance bé hơn 0.1 thì chắc chắn có đa cộng tuyến.

Cách 2

Nhận dạng Multicollinearity dựa vào hệ số tương quan,có hay không tương quan tuyến tính mạnh giữa các biến độc lập. Cách làm: xây dựng ma trận hệ số tương quan cặp giữa các biến độc lập và quan sát để nhận diện độ mạnh của các tương quan giữa từng cặp biến số độc lập. Cũng có thể nhìn vào kết quả hồi quy, ta thấy R2 cao( tầm trên 0.8) và thống kê t thấp. Tuy nhiên như đã nói thì ít khi sử dụng cách hai này. Vì nó dựa vào phán đoán chủ quan hơn là công thức như cách 1.

Hậu quả của hiện tượng đa cộng tuyến:

Sai số chuẩn của các hệ số sẽ lớn. Khoảng tin cậy lớn và thống kê t ít ý nghĩa. Các ước lượng không thật chính xác. Do đó chúng ta dễ đi đến không có cơ sở bác bỏ giả thiết "không" và điều này có thể không đúng.

Ba nguyên nhân gây ra hiện tượng đa cộng tuyến

  1. Khi chọn các biến độc lập mối quan có quan hệ nhân quả hay có tương quan cao vì đồng thời phụ thuộc vào một điều kiện khác.
  2. Cách thu thập mẫu: mẫu không đặc trưng cho tổng thể
  3. Chọn biến độc lập có độ biến thiên nhỏ.

Các giải pháp khắc phục đa cộng tuyến

Giải pháp 1: Bỏ bớt biến độc lập(điều này xảy ra với giả định rằng không có mối quan hệ giữa biến phụ thuộc và biến độc lập bị loại bỏ mô hình).
Giải pháp 2: Bổ sung dữ liệu hoặc tìm dữ liệu mới,tìm mẫu dữ liệu khác hoặc gia tăng cỡ mẫu. Tuy nhiên nếu mẫu lớn hơn mà vẫn còn multicollinearity thì vẫn có giá trị vì mẫu lớn hơn sẽ làm cho phương sai nhỏ hơn và hệ số ước lượng chính xác hơn so với mẫu nhỏ.
Giải pháp 3: Thay đổi dạng mô hình,mô hình kinh tế lượng có nhiều dạng hàm khác nhau. Thay đổi dạng mô hình cũng có nghĩa là tái cấu trúc mô hình. Điều này thật sự là điều không mong muốn, thì lúc đó bạn phải thay đổi mô hình nghiên cứu.

Nhóm MBA Bách Khoa Hỗ Trợ SPSS đã giới thiệu định nghĩa, cách phát hiện, hậu quả, cách khắc phục hiện tượng đa cộng tuyến. Các bạn  làm bài luận có thắc mắc, khó khăn hoặc cần xử lý số liệu cho ra kết quả tốt hơn cứ liên hệ nhóm nhé.

-Viber/zalo qua số điện thoại so-alo

-Facebook: http://facebook.com/hoidapSPSS/

-Email: hotrospss@gmail.com