All posts by hotrospss

Đa cộng tuyến: định nghĩa, cách phát hiện, hậu quả, cách khắc phục

Nhóm MBA Hỗ Trợ SPSS giới thiệu cách phát hiện đa cộng tuyến khi phân tích hồi quy, đồng thời giải thích hậu quả, cách khắc phục đa cộng tuyến.

Định nghĩa đa cộng tuyến là gì?


Trong mô hình hồi quy, nếu các biến độc lập có quan hệ chặt với nhau, các biến độc lập có mối quan hệ tuyến tính, nghĩa là các biến độc lập có tương quan chặt, mạnh với nhau thì sẽ có hiện tượng đa cộng tuyến, đó là hiện tượng các biến độc lập trong mô hình phụ thuộc lẫn nhau và thể hiện được dưới dạng hàm số. Ví dụ có hai biến độc lập A và B, khi A tăng thì B tăng, A giảm thì B giảm…. thì đó là một dấu hiệu của đa cộng tuyến. Nói một cách khác là hai biến độc lập có quan hệ rất mạnh với nhau, đúng ra hai biến này nó phải là 1 biến nhưng thực tế trong mô hình nhà nghiên cứu lại tách làm 2 biến. Hiện tượng đa cộng tuyến vi phạm giả định của mô hình hồi qui tuyến tính cổ điển là các biến độc lập không có mối quan hệ tuyến tính với nhau.

Cách phát hiện đa cộng tuyến

Có hai cách: dựa vào hệ số phóng đại phương sai VIF, hoặc dựa vào ma trận hệ số tương quan. Tuy nhiên cách dùng ma trận hệ số tương quan ít được sử dụng, chủ yếu sửa dụng cách nhận xét chỉ số VIF.

Cách 1

Dựa vào VIF ,khi thực hiện hồi quy đa biến, ta nhấn vào nút Statistics , xong check vào Collinearity diagnostics.
 

Kết quả ra như sau:

Nếu hệ số phóng đại phương sai VIF (variance inflation factor) > 2 thì có dấu hiệu đa cộng tuyến, đây là điều không mong muốn. Nếu VIF > 10 thì chắc chắn có đa cộng tuyến. Nếu VIF <2: không bị đa cộng tuyến

Ta cũng có thể xem xét giá trị Tolerance bằng công thức Tolerance=1/VIF . Hệ số này nằm cột bên trái của hệ số VIF. Tương ứng là: nếu hệ số Tolerance bé hơn 0.5 thì có dấu hiệu đa cộng tuyến, đây là điều không mong muốn. Nếu giá trị Tolerance bé hơn 0.1 thì chắc chắn có đa cộng tuyến.

Cách 2

Nhận dạng Multicollinearity dựa vào hệ số tương quan,có hay không tương quan tuyến tính mạnh giữa các biến độc lập. Cách làm: xây dựng ma trận hệ số tương quan cặp giữa các biến độc lập và quan sát để nhận diện độ mạnh của các tương quan giữa từng cặp biến số độc lập. Cũng có thể nhìn vào kết quả hồi quy, ta thấy R2 cao( tầm trên 0.8) và thống kê t thấp. Tuy nhiên như đã nói thì ít khi sử dụng cách hai này. Vì nó dựa vào phán đoán chủ quan hơn là công thức như cách 1.

Hậu quả của hiện tượng đa cộng tuyến:

Sai số chuẩn của các hệ số sẽ lớn. Khoảng tin cậy lớn và thống kê t ít ý nghĩa. Các ước lượng không thật chính xác. Do đó chúng ta dễ đi đến không có cơ sở bác bỏ giả thiết "không" và điều này có thể không đúng.

Ba nguyên nhân gây ra hiện tượng đa cộng tuyến

  1. Khi chọn các biến độc lập mối quan có quan hệ nhân quả hay có tương quan cao vì đồng thời phụ thuộc vào một điều kiện khác.
  2. Cách thu thập mẫu: mẫu không đặc trưng cho tổng thể
  3. Chọn biến độc lập có độ biến thiên nhỏ.

Các giải pháp khắc phục đa cộng tuyến

Giải pháp 1: Bỏ bớt biến độc lập(điều này xảy ra với giả định rằng không có mối quan hệ giữa biến phụ thuộc và biến độc lập bị loại bỏ mô hình).
Giải pháp 2: Bổ sung dữ liệu hoặc tìm dữ liệu mới,tìm mẫu dữ liệu khác hoặc gia tăng cỡ mẫu. Tuy nhiên nếu mẫu lớn hơn mà vẫn còn multicollinearity thì vẫn có giá trị vì mẫu lớn hơn sẽ làm cho phương sai nhỏ hơn và hệ số ước lượng chính xác hơn so với mẫu nhỏ.
Giải pháp 3: Thay đổi dạng mô hình,mô hình kinh tế lượng có nhiều dạng hàm khác nhau. Thay đổi dạng mô hình cũng có nghĩa là tái cấu trúc mô hình. Điều này thật sự là điều không mong muốn, thì lúc đó bạn phải thay đổi mô hình nghiên cứu.

Nhóm MBA Bách Khoa Hỗ Trợ SPSS đã giới thiệu định nghĩa, cách phát hiện, hậu quả, cách khắc phục hiện tượng đa cộng tuyến. Các bạn  làm bài luận có thắc mắc, khó khăn hoặc cần xử lý số liệu cho ra kết quả tốt hơn cứ liên hệ nhóm nhé.

-Viber/zalo qua số điện thoại so-alo

-Facebook: http://facebook.com/hoidapSPSS/

-Email: hotrospss@gmail.com

Hệ số R bình phương, R bình phương hiệu chỉnh: công thức, ý nghĩa, cách tính thủ công và cách tính bằng SPSS

Chào các bạn, hôm nay nhóm Thạc Sĩ QTKD ĐH Bách Khoa HCM giới thiệu đến các bạn chi tiết nội dung ý nghĩa của hai giá trị khá quan trọng khi chạy mô hình hồi quy tuyến tính đa biến, đó là hệ số R bình phương (R Square) và R bình phương hiệu chỉnh( còn gọi là R bình phương điều chỉnh, hay Adjusted R Square). Hai giá trị này dùng đo sự phù hợp của mô hình hồi quy, còn gọi là hệ số xác định ( coefficient of detemination). Hệ số R bình phương từ đây sẽ được gọi tắt là R2 nhé.

Công thức tính hệ số R bình phương.

Công thức tính hệ số R bình phương xuất phát từ ý tưởng: toàn bộ sự biến thiên của biến phụ thuộc được chia làm hai phần: phần biến thiên do hồi quy và phần biến thiên không do hồi quy( còn gọi là phần dư).

Regression Sum of Squares(RSS): tổng các độ lệch bình phương giải thích từ hồi quy

Residual Sum of Squares(ESS): tổng các độ lệch bình phương phần dư

Total Sum of Squares(TSS): tổng các độ lệch bình phương toàn bộ

Giá trị R bình phương dao động từ 0 đến 1. R bình phương càng gần 1 thì mô hình đã xây dựng càng phù hợp với bộ dữ liệu dùng chạy hồi quy. R bình phương càng gần 0 thì mô hình đã xây dựng càng kém phù hợp với bộ dữ liệu dùng chạy hồi quy. Trường hợp đặt biệt, phương trình hồi quy đơn biến ( chỉ có 1 biến độc lập) thì R2 chính là bình phương của hệ số tương quan r giữa hai biến đó.

Ý nghĩa R bình phương

Ý nghĩa cụ thể:giả sử R bình phương là 0.60, thì mô hình hồi quy tuyến tính này phù hợp với tập dữ liệu ở mức 60%. Nói cách khác, 60% biến thiên của biến phụ thuộc được giải thích bởi các biến độc lập.( còn 40% còn lại ở đâu, dĩ nhiên là do sai số đo lường, do cách thu thập dữ liệu, do có thể có biến độc lập khác giải thích cho biến phụ thuộc mà chưa được được vào mô hình nghiên cứu…vv). Thông thường, ngưỡng của R2 phải trên 50%, vì như thế mô hình mới phù hợp. Tuy nhiên tùy vào dạng nghiên cứu, như các mô hình về tài chính, không phải tất cả các hệ số R2 đều bắc buộc phải thỏa mãn lớn hơn 50%.( do rất khó dể dự đoán giá vàng, giá cổ phiếu mà chỉ đơn thuần dựa vào các biến độc lập ví dụ GDP, ROA,ROE….)

Hạn chế của hệ số R bình phương

Càng đưa thêm nhiều biến vào mô hình, mặc dù chưa xác định biến đưa vào có ý nghĩa hay không thì giá trị R2 sẽ tăng. Lý do là khi càng đưa thêm biến giải thích vào mô hình thì sẽ càng khiến phần dư giảm xuống (vì bản chất những gì không giải thích được đều nằm ở phần dư), do vậy tăng thêm biến sẽ khiến tổng bình phương phần dư(Residual Sum of Squares) giảm, trong khi Total Sum of Squares không đổi, dẫn tới R2 luôn luôn tăng.
Giá trị R2 tăng khả năng giải thích của mô hình, nhưng bản chất thì lại không làm rõ được tầm quan trọng của biến đưa vào, do đó nếu dựa vào giá trị R2 để đánh giá tính hiệu quả của mô hình sẽ dẫn đến tình huống không chính xác vì sẽ đưa quá nhiều biến không cần thiết, làm phức tạp mô hình.

Để ngăn chặn tình trạng như đã nêu trên, một phép đo khác về mức độ thích hợp được sử dụng thường xuyên hơn. Phép đo này gọi là R2 hiệu chỉnh hoặc R2 hiệu chỉnh theo bậc tự do.

Hệ số R bình phương hiệu chỉnh

Công thức tính hệ số R bình phương hiệu chỉnh

Trong đó:

n= số lượng mẫu quan sát.

k= số tham số của mô hình, bằng số lượng biến độc lập cộng 1

R2: hệ số R bình phương

Việc thêm vào một biến dẫn đến tăng R2 nhưng cũng làm giảm đi một bậc tự do, bởi vì chúng ta đang ước lượng thêm một tham số nữa. R2 hiệu chỉnh là một phép đo độ thích hợp tốt hơn bởi vì nó cho phép đánh đổi giữa việc tăng R2 và giảm bậc tự do. Cũng cần lưu ý là vì (n-1)/(n – k) không bao giờ nhỏ hơn 1 nên R2 hiệu chỉnh sẽ không bao giờ lớn hơn R2 . Tuy nhiên, mặc dù R2 không thể âm, R2 hiệu chỉnh có thể nhỏ hơn không.  Ví dụ, khi n = 26, k = 6, và R2 = 0,1, chúng ta có R2 hiệu chỉnh = 0,125 .

Ví dụ tính R2 và R2 hiệu chỉnh bằng tay theo công thức dựa trên kết quả phân tích hồi quy đa biến

Sau khi thực hiện phân tích hồi quy đa biến, sẽ ra được bảng kết quả sau:

 

Trong bảng Model Summary đã có sẵn R2 và R2 hiệu chỉnh. Tuy nhiên ta sẽ thực hiện tính toán giá trị này dựa vào bảng ANOVA bên dưới để hiểu rõ vấn đề.

Nhắc lại công thức tính R bình phương:

Trong bài này:

ESS=Residual Sum of Squares= 30.036

TSS=Total Sum of Squares = 86.721

do đó: R2=1-(ESS/TSS) =1-(30.036/86.721)= 0.654

Như vậy ta đã tính được bằng công thức giá trị R square=0.654. Bây giờ ta tính tiếp giá trị adjusted R square nhé

R2_hiệuchỉnh=1-(n-1)*(1-R2)/(n-k)

n= số lượng mẫu quan sát=160

k= số tham số của mô hình, bằng số lượng biến độc lập cộng 1= 6+1=7

vậy R2_hiệuchỉnh=1-(n-1)*(1-R2)/(n-k)=1-(160-1)*(1-0.654)/(160-7)= 0.640

Như vậy R_bìnhphương_hiệuchỉnh=0.640 bé hơn R_bìnhphương=0.654

Khi các bạn làm bài dạng như: các yếu tố ảnh hưởng đến quyết định, ý định, sự hài lòng… nói chung là các bài dạng khảo sát thị trường , nếu gặp trường hợp R bình phương thấp hơn 0.5, hãy gởi mô hình nghiên cứu, bảng câu hỏi, thông tin liên quan… để nhóm tư vấn cách xử lý triệt để nhé. Nhóm sẽ có cách tư vấn xử lý để hệ số R bình phương lớn hơn 50%.

Chúc các bạn làm bài tốt.

Liên hệ:

-Viber/zalo qua số điện thoại so-alo

-Facebook: http://facebook.com/hoidapSPSS/

-Email: hotrospss@gmail.com

Xử lý lỗi AMOS: In order to analyse data with missing observations, you must explicitly estimate means and intercepts

Hôm nay nhóm ThS QTKD ĐH Bách Khoa Hỗ Trợ AMOS hướng dẫn các bạn cách xử lý một lỗi khá khó chịu trong AMOS.

Lỗi hiển thị như sau:

 

Khi phân tích CFA sẽ gặp lỗi này, việc này ngăn cản không thể tính toán các bước tiếp theo được.

An error occurred while attempting to fit the model. In order to analyse data with missing observations, you must explicitly estimate means and intercepts. In amos graphics, place a check next to "Estimate means and intercepts" in the "Analysis Properties" window. In programming the Amos engine ,use the ModelMeansAndIntercepts

Ý nghĩa thông báo lỗi:

Khi phân tích với dữ liệu bị thiếu, cần phải chỉ định trực tiếp trung bình và hệ số chặn. Tuy nhiên không nên làm theo hướng dẫn này, vì không có liên quan gì đến bài cả, nếu làm theo hướng dẫn này thì càng làm sẽ càng sai, không giải quyết được bản chất vấn đề( do chương trình nghĩ mình đang thực sự cần phân tích với dữ liệu không đầy đủ)

Cách xử lý lỗi:

Tìm xem chỗ nào dữ liệu bị thiếu, điền thêm dữ liệu vào, hoặc xóa luôn dòng đó. Dữ liệu bị thiếu trong SPSS là khi ô dữ  liệu đó bị trống( hiển thị bằng dấu chấm như hình dưới), không có số, nguyên nhân do nhập sót, hoặc file excel gốc bị thiếu dẫn đến data bị thiếu trong SPSS.

Sau khi đã tìm được tất cả dữ liệu bị thiếu, bạn xử lý nó, lưu file lại và chạy AMOS lại sẽ hết bị lỗi nhé.

Như vậy nhóm MBA Bách Khoa HCM đã hướng dẫn xử lý xong lỗi: In order to analyse data with missing observations, you must explicitly estimate means and intercepts. Các bạn liên hệ nhóm để được tư vấn, đào tạo, khảo sát dữ liệu,xử lý bài cho tốt hơn nhé.

Liên hệ:

-Viber/zalo qua số điện thoại so-alo

-Facebook: http://facebook.com/hoidapSPSS/

-Email: hotrospss@gmail.com