Category Archives: SPSS

Đa cộng tuyến: định nghĩa, cách phát hiện, hậu quả, cách khắc phục

Nhóm MBA Hỗ Trợ SPSS giới thiệu cách phát hiện đa cộng tuyến khi phân tích hồi quy, đồng thời giải thích hậu quả, cách khắc phục đa cộng tuyến.

Định nghĩa đa cộng tuyến là gì?


Trong mô hình hồi quy, nếu các biến độc lập có quan hệ chặt với nhau, các biến độc lập có mối quan hệ tuyến tính, nghĩa là các biến độc lập có tương quan chặt, mạnh với nhau thì sẽ có hiện tượng đa cộng tuyến, đó là hiện tượng các biến độc lập trong mô hình phụ thuộc lẫn nhau và thể hiện được dưới dạng hàm số. Ví dụ có hai biến độc lập A và B, khi A tăng thì B tăng, A giảm thì B giảm…. thì đó là một dấu hiệu của đa cộng tuyến. Nói một cách khác là hai biến độc lập có quan hệ rất mạnh với nhau, đúng ra hai biến này nó phải là 1 biến nhưng thực tế trong mô hình nhà nghiên cứu lại tách làm 2 biến. Hiện tượng đa cộng tuyến vi phạm giả định của mô hình hồi qui tuyến tính cổ điển là các biến độc lập không có mối quan hệ tuyến tính với nhau.

Cách phát hiện đa cộng tuyến

Có hai cách: dựa vào hệ số phóng đại phương sai VIF, hoặc dựa vào ma trận hệ số tương quan. Tuy nhiên cách dùng ma trận hệ số tương quan ít được sử dụng, chủ yếu sửa dụng cách nhận xét chỉ số VIF.

Cách 1

Dựa vào VIF ,khi thực hiện hồi quy đa biến, ta nhấn vào nút Statistics , xong check vào Collinearity diagnostics.
 

Kết quả ra như sau:

Nếu hệ số phóng đại phương sai VIF (variance inflation factor) > 2 thì có dấu hiệu đa cộng tuyến, đây là điều không mong muốn. Nếu VIF > 10 thì chắc chắn có đa cộng tuyến. Nếu VIF <2: không bị đa cộng tuyến

Ta cũng có thể xem xét giá trị Tolerance bằng công thức Tolerance=1/VIF . Hệ số này nằm cột bên trái của hệ số VIF. Tương ứng là: nếu hệ số Tolerance bé hơn 0.5 thì có dấu hiệu đa cộng tuyến, đây là điều không mong muốn. Nếu giá trị Tolerance bé hơn 0.1 thì chắc chắn có đa cộng tuyến.

Cách 2

Nhận dạng Multicollinearity dựa vào hệ số tương quan,có hay không tương quan tuyến tính mạnh giữa các biến độc lập. Cách làm: xây dựng ma trận hệ số tương quan cặp giữa các biến độc lập và quan sát để nhận diện độ mạnh của các tương quan giữa từng cặp biến số độc lập. Cũng có thể nhìn vào kết quả hồi quy, ta thấy R2 cao( tầm trên 0.8) và thống kê t thấp. Tuy nhiên như đã nói thì ít khi sử dụng cách hai này. Vì nó dựa vào phán đoán chủ quan hơn là công thức như cách 1.

Hậu quả của hiện tượng đa cộng tuyến:

Sai số chuẩn của các hệ số sẽ lớn. Khoảng tin cậy lớn và thống kê t ít ý nghĩa. Các ước lượng không thật chính xác. Do đó chúng ta dễ đi đến không có cơ sở bác bỏ giả thiết "không" và điều này có thể không đúng.

Ba nguyên nhân gây ra hiện tượng đa cộng tuyến

  1. Khi chọn các biến độc lập mối quan có quan hệ nhân quả hay có tương quan cao vì đồng thời phụ thuộc vào một điều kiện khác.
  2. Cách thu thập mẫu: mẫu không đặc trưng cho tổng thể
  3. Chọn biến độc lập có độ biến thiên nhỏ.

Các giải pháp khắc phục đa cộng tuyến

Giải pháp 1: Bỏ bớt biến độc lập(điều này xảy ra với giả định rằng không có mối quan hệ giữa biến phụ thuộc và biến độc lập bị loại bỏ mô hình).
Giải pháp 2: Bổ sung dữ liệu hoặc tìm dữ liệu mới,tìm mẫu dữ liệu khác hoặc gia tăng cỡ mẫu. Tuy nhiên nếu mẫu lớn hơn mà vẫn còn multicollinearity thì vẫn có giá trị vì mẫu lớn hơn sẽ làm cho phương sai nhỏ hơn và hệ số ước lượng chính xác hơn so với mẫu nhỏ.
Giải pháp 3: Thay đổi dạng mô hình,mô hình kinh tế lượng có nhiều dạng hàm khác nhau. Thay đổi dạng mô hình cũng có nghĩa là tái cấu trúc mô hình. Điều này thật sự là điều không mong muốn, thì lúc đó bạn phải thay đổi mô hình nghiên cứu.

Nhóm MBA Bách Khoa Hỗ Trợ SPSS đã giới thiệu định nghĩa, cách phát hiện, hậu quả, cách khắc phục hiện tượng đa cộng tuyến. Các bạn  làm bài luận có thắc mắc, khó khăn hoặc cần xử lý số liệu cho ra kết quả tốt hơn cứ liên hệ nhóm nhé.

-Viber/zalo qua số điện thoại so-alo

-Facebook: http://facebook.com/hoidapSPSS/

-Email: hotrospss@gmail.com

Hệ số R bình phương, R bình phương hiệu chỉnh: công thức, ý nghĩa, cách tính thủ công và cách tính bằng SPSS

Chào các bạn, hôm nay nhóm Thạc Sĩ QTKD ĐH Bách Khoa HCM giới thiệu đến các bạn chi tiết nội dung ý nghĩa của hai giá trị khá quan trọng khi chạy mô hình hồi quy tuyến tính đa biến, đó là hệ số R bình phương (R Square) và R bình phương hiệu chỉnh( còn gọi là R bình phương điều chỉnh, hay Adjusted R Square). Hai giá trị này dùng đo sự phù hợp của mô hình hồi quy, còn gọi là hệ số xác định ( coefficient of detemination). Hệ số R bình phương từ đây sẽ được gọi tắt là R2 nhé.

Công thức tính hệ số R bình phương.

Công thức tính hệ số R bình phương xuất phát từ ý tưởng: toàn bộ sự biến thiên của biến phụ thuộc được chia làm hai phần: phần biến thiên do hồi quy và phần biến thiên không do hồi quy( còn gọi là phần dư).

Regression Sum of Squares(RSS): tổng các độ lệch bình phương giải thích từ hồi quy

Residual Sum of Squares(ESS): tổng các độ lệch bình phương phần dư

Total Sum of Squares(TSS): tổng các độ lệch bình phương toàn bộ

Giá trị R bình phương dao động từ 0 đến 1. R bình phương càng gần 1 thì mô hình đã xây dựng càng phù hợp với bộ dữ liệu dùng chạy hồi quy. R bình phương càng gần 0 thì mô hình đã xây dựng càng kém phù hợp với bộ dữ liệu dùng chạy hồi quy. Trường hợp đặt biệt, phương trình hồi quy đơn biến ( chỉ có 1 biến độc lập) thì R2 chính là bình phương của hệ số tương quan r giữa hai biến đó.

Ý nghĩa R bình phương

Ý nghĩa cụ thể:giả sử R bình phương là 0.60, thì mô hình hồi quy tuyến tính này phù hợp với tập dữ liệu ở mức 60%. Nói cách khác, 60% biến thiên của biến phụ thuộc được giải thích bởi các biến độc lập.( còn 40% còn lại ở đâu, dĩ nhiên là do sai số đo lường, do cách thu thập dữ liệu, do có thể có biến độc lập khác giải thích cho biến phụ thuộc mà chưa được được vào mô hình nghiên cứu…vv). Thông thường, ngưỡng của R2 phải trên 50%, vì như thế mô hình mới phù hợp. Tuy nhiên tùy vào dạng nghiên cứu, như các mô hình về tài chính, không phải tất cả các hệ số R2 đều bắc buộc phải thỏa mãn lớn hơn 50%.( do rất khó dể dự đoán giá vàng, giá cổ phiếu mà chỉ đơn thuần dựa vào các biến độc lập ví dụ GDP, ROA,ROE….)

Hạn chế của hệ số R bình phương

Càng đưa thêm nhiều biến vào mô hình, mặc dù chưa xác định biến đưa vào có ý nghĩa hay không thì giá trị R2 sẽ tăng. Lý do là khi càng đưa thêm biến giải thích vào mô hình thì sẽ càng khiến phần dư giảm xuống (vì bản chất những gì không giải thích được đều nằm ở phần dư), do vậy tăng thêm biến sẽ khiến tổng bình phương phần dư(Residual Sum of Squares) giảm, trong khi Total Sum of Squares không đổi, dẫn tới R2 luôn luôn tăng.
Giá trị R2 tăng khả năng giải thích của mô hình, nhưng bản chất thì lại không làm rõ được tầm quan trọng của biến đưa vào, do đó nếu dựa vào giá trị R2 để đánh giá tính hiệu quả của mô hình sẽ dẫn đến tình huống không chính xác vì sẽ đưa quá nhiều biến không cần thiết, làm phức tạp mô hình.

Để ngăn chặn tình trạng như đã nêu trên, một phép đo khác về mức độ thích hợp được sử dụng thường xuyên hơn. Phép đo này gọi là R2 hiệu chỉnh hoặc R2 hiệu chỉnh theo bậc tự do.

Hệ số R bình phương hiệu chỉnh

Công thức tính hệ số R bình phương hiệu chỉnh

Trong đó:

n= số lượng mẫu quan sát.

k= số tham số của mô hình, bằng số lượng biến độc lập cộng 1

R2: hệ số R bình phương

Việc thêm vào một biến dẫn đến tăng R2 nhưng cũng làm giảm đi một bậc tự do, bởi vì chúng ta đang ước lượng thêm một tham số nữa. R2 hiệu chỉnh là một phép đo độ thích hợp tốt hơn bởi vì nó cho phép đánh đổi giữa việc tăng R2 và giảm bậc tự do. Cũng cần lưu ý là vì (n-1)/(n – k) không bao giờ nhỏ hơn 1 nên R2 hiệu chỉnh sẽ không bao giờ lớn hơn R2 . Tuy nhiên, mặc dù R2 không thể âm, R2 hiệu chỉnh có thể nhỏ hơn không.  Ví dụ, khi n = 26, k = 6, và R2 = 0,1, chúng ta có R2 hiệu chỉnh = 0,125 .

Ví dụ tính R2 và R2 hiệu chỉnh bằng tay theo công thức dựa trên kết quả phân tích hồi quy đa biến

Sau khi thực hiện phân tích hồi quy đa biến, sẽ ra được bảng kết quả sau:

 

Trong bảng Model Summary đã có sẵn R2 và R2 hiệu chỉnh. Tuy nhiên ta sẽ thực hiện tính toán giá trị này dựa vào bảng ANOVA bên dưới để hiểu rõ vấn đề.

Nhắc lại công thức tính R bình phương:

Trong bài này:

ESS=Residual Sum of Squares= 30.036

TSS=Total Sum of Squares = 86.721

do đó: R2=1-(ESS/TSS) =1-(30.036/86.721)= 0.654

Như vậy ta đã tính được bằng công thức giá trị R square=0.654. Bây giờ ta tính tiếp giá trị adjusted R square nhé

R2_hiệuchỉnh=1-(n-1)*(1-R2)/(n-k)

n= số lượng mẫu quan sát=160

k= số tham số của mô hình, bằng số lượng biến độc lập cộng 1= 6+1=7

vậy R2_hiệuchỉnh=1-(n-1)*(1-R2)/(n-k)=1-(160-1)*(1-0.654)/(160-7)= 0.640

Như vậy R_bìnhphương_hiệuchỉnh=0.640 bé hơn R_bìnhphương=0.654

Khi các bạn làm bài dạng như: các yếu tố ảnh hưởng đến quyết định, ý định, sự hài lòng… nói chung là các bài dạng khảo sát thị trường , nếu gặp trường hợp R bình phương thấp hơn 0.5, hãy gởi mô hình nghiên cứu, bảng câu hỏi, thông tin liên quan… để nhóm tư vấn cách xử lý triệt để nhé. Nhóm sẽ có cách tư vấn xử lý để hệ số R bình phương lớn hơn 50%.

Chúc các bạn làm bài tốt.

Liên hệ:

-Viber/zalo qua số điện thoại so-alo

-Facebook: http://facebook.com/hoidapSPSS/

-Email: hotrospss@gmail.com

Phân tích sâu Anova một yếu tố (post-hoc One-way Anova)

Nhóm MBA Bách Khoa giới thiệu cách phân tích sâu anova : mục đích, ý nghĩa, cách thực hiện bằng hình ảnh, bằng video hướng dẫn trên phần mềm SPSS.

Mục đích phân tích sâu anova

Dùng để xem có sự  khác biệt cụ thể giữa nhóm nào và nhóm nào về một vấn đề nào đó có ý nghĩa thống kê không.. Ví dụ: trong 100 người trả lời bảng câu hỏi, chia ra 3 nhóm tuổi:

  1. Nhóm 1: nhóm <30 tuổi
  2. Nhóm 2: nhóm từ 30-40 tuổi.
  3. Nhóm 3: nhóm trên 40 tuổi

Ta cần so sách xem trong 3 nhóm tuổi trên, nhóm nào hài lòng hơn nhóm nào, và sự khác biệt có ý nghĩa thống kê hay không? Biến cần so sánh sự khác biệt ở đây là biến Hài Lòng.

      Câu hỏi đặt ra là ta đã chạy anova rồi, cho thấy có sự khác biệt về sự Hài Lòng giữa các nhóm tuổi rồi, bây giờ việc còn lại là xác định nhóm tuổi nào có sự khác biệt với nhóm tuổi nào? Bởi vì có thể nhóm 1 có khác biệt với nhóm 3, nhưng nhóm 1 không có khác biệt với nhóm 2 về sự Hài Lòng. Vấn đề này sẽ được giải quyết bằng phân tích sâu Anova, còn gọi là post-hoc test anova. Bài này sẽ hướng dẫn các bạn làm việc đó và đọc ý nghĩa.

         Lưu ý nếu chỉ có hai nhóm quan sát thì không cần chạy phân tích sâu anova, và nếu chạy thì SPSS cũng không thể hiện ra kết quả, vì có hai nhóm , và có sự khác biệt thì chắc chắn là nhóm 1 khác nhóm 2 rồi, cần gì phân tích sâu nữa 🙂

Hướng dẫn bằng Video:

Đây là video hướng dẫn, các bạn không tiện xem video có thể xem hướng dẫn chi tiết bằng hình ảnh bên dưới nhé.

Hướng dẫn bằng hình ảnh:

     Dưới đây là các bước thực hiện phân tích anova bằng hình ảnh, sau đó phân tích sâu post – hoc, kèm theo diễn giải chi tiết:

     Đầu tiên vào menu Analyze -> Compare means -> One-way ANOVA

     Chọn biến phụ thuộc vào ô Dependent List, biến Tuổi vào ô Factor. Sau đó nhấn nút Post-hoc để hiện lên bảng phân tích sâu anova. Sau đó chọn phép kiểm LSD như bên dưới. ( có thể sử dụng Turkey cũng được). Mục đích chỗ này là hiện ra bảng Multiple comparisons bên dưới.

     Tiếp tục nhấn vào Option và chọn thống kê mô tả Descriptive( chủ yếu để biết trung bình sự hài lòng của mỗi nhóm tuổi là bao nhiêu) và Homogeneity of variance test( để kiểm định giả thiết phương sai đồng nhất). Sau đó nhấn OK để hiện ra kết quả

     Kết quả ra như sau:

Cách phân tích kết quả

– Bảng Descriptives: Nhìn vào cột mean ta thấy về mặt Hài Lòng, nhóm Trên 40 TUỔI hài lòng hơn 2 nhóm kia, do mean của nhóm này là 3.5128, cao hơn mean của hai nhóm còn lại( xem khung màu ĐỎ)

– Bảng kiểm định phương sai đồng nhất Test of Homogeneity of Variances, có sig.=0.145 >5%, do đó kết luận phương sai giữa các nhóm không có sự khác biệt, đủ điều kiện để phân tích Anova.

– Bảng ANOVA,sig.=0.031 < 5%, chứng tỏ có sự khác biệt về sự hài lòng giữa các nhóm tuổi. Tuy nhiên để biết nhóm nào khác với nhóm nào cần nhìn vào bảng tiếp theo.

– Bảng Post Hoc Tests Multiple Comparisons, ta để ý cột sig. màu đỏ nhé. Ta sẽ xem xét giá trị nào bé hơn 0.05 tức là 5 phần trăm. Ta thấy có giá trị 0.009, đó là sig. khi so sánh sự hài lòng giữa hai nhóm tuổi: Nhóm từ 30-40, và nhóm trên 40 tuổi. Điều này chứng tỏ trong 3 nhóm tuổi, chỉ có hai nhóm này là có sự khác biệt về sự hài lòng. Cột Mean Difference (I-J) của hàng này là -0.552821 , chứng tỏ mean Hài Lòng của nhóm 30-40 tuổi THẤP HƠN nhóm trên 40 tuổi. Nói cách khác nhóm tuổi trên 40 có sự khác biệt có ý nghĩa thống kê so với nhóm tuổi 30-40 trong vấn đề Hài Lòng.

Như vậy nhóm MBA đã hướng dẫn xong cách Phân tích sâu Anova một yếu tố (post-hoc One-way Anova). Các bạn có thắc mắc cứ liên hệ nhóm tại http://phantichspss.com/lien-he-gioi-thieu để được hỗ trợ hướng dẫn nhé.

-Viber/zalo qua số điện thoại so-alo

-Facebook: http://facebook.com/hoidapSPSS/

-Email: hotrospss@gmail.com