Category Archives: SPSS

Cách khai báo mã hóa biến câu hỏi nhiều lựa chọn,nhiều câu trả lời với SPSS

Bài này nhóm ThS Bách Khoa giới thiệu đến bạn cách khai báo mã hóa biến cho câu hỏi nhiều lựa chọn, đồng thời giới thiệu cách thống kê tần số áp dụng cho câu trả lời nhiều lựa chọn.

Câu hỏi nhiều lựa chọn là gì?

Câu hỏi nhiều lựa chọn là câu hỏi mà người được khảo sát có thể không cần trả lời câu nào, hoặc trả lời chọn được tất cả các câu. Ví dụ câu sau:

Bạn đã từng mua sắm ở những nơi nào trong 1 tháng qua?

1. Siêu thị

2. Chợ truyền thống

3. Cửa hàng tiện lợi

Như vậy, người được khảo sát có thể chọn cả 3 ý trên, hoặc có thể không chọn ý nào cả( trong trường hợp họ không đi mua sắm ở chỗ nào trong 3 chỗ trên trong 1 tháng qua.

Sự khác nhau giữa câu hỏi nhiều lựa chọn multiple response và câu hỏi một lựa chọn single response: câu hỏi nhiều lựa chọn multiple response cần phải dùng cách mã hóa riêng, và sử dụng menu thống kê riêng( Analyze-Multile response-…)

Nguyên tắc mã hóa câu hỏi nhiều lựa chọn

-Mỗi ý trả lời là 1 cột trong excel. Ví dụ ở trên có 3 ý trả lời, ứng với 3 cột trong excel.

-Giá trị trong các cột ở trên là 0( ứng với lựa chọn đó không được chọn) hoặc 1 ( ứng với lựa chọn đó có được chọn).

Ví dụ quan sát 5 người đầu tiên:

Người thứ 1 chọn đáp án 1

Người thứ 2 chọn đáp án 1,3

Người thứ 3 không chọn đáp án  nào cả

Người thứ 4 chọn đáp án 2

Thì ta nhập vào excel như sau:

Sau khi nhập dữ liệu Excel thì chuyển sang File SPSS để thực hiện mã hóa.

File số liệu sau khi nhập và mã hóa các bạn tải ở đây: phantichspss.com/filefordownload/multichoice.sav

Chỗ mục Label ta đặt tên các lựa chọn chợ, siêu thị,…. cho các biến nhé.

Cách thực hiện chạy câu trả lời nhiều lựa chọn sau khi mã hóa làm như sau:

Vào menu Analyze –> Multiple Response –> Define Variable Sets…

Ở cửa sổ Define Multiple Response Set, ta chọn 3 ý ở khung “Set Definition” và ấn nút mũi tên để đưa vào ô “Variables in Set”.

Trong phần Variables Are Coded As, chọn Dichotomies, chỗ Counted value bạn gõ vào số 1 nhé. (có các mã hóa khác là chọn Categrories, nhưng áp dụng khi trong file excel bạn không nhập giá trị 0/1 mà là nhập giá trị 1/2/3/4/5/6…, phần này sẽ được đề cập trong một bài khác)

Mục Name, bạn nhập tên cho biến chung đó, ví dụ nhập MuaSam

Sau đó ấn nút Add, rồi Close, như vậy là đã định nghĩa xong biến spss nhiều câu lựa chọn rồi nhé.

Tiếp đến ta thực hiện chạy tần số cho biến đó bằng cách vào menu Analyze –> Multiple Response –> Frequencies

Đưa giá trị ở cột Multiple Response Sets vào khung “Table(s) for:”, sau đó ấn OK

Kết quả xuất hiện bên dưới

Cách đọc kết quả thống kê nhiều câu trả lời:

Các câu trả lời có nhiều đáp án mình sẽ đọc kết quả ở 2cột sau

Percent: tổng sẽ bằng 100%, Ví dụ ta xét dòng SIÊU THỊ, giá trị percent = 2/7=28.6%

Percent of case: thường tổng sẽ lớn hơn 100%, ví dụ ta xét dòng SIÊU THỊ, giá trị percent = 2/6=33.3%

Sự khác biệt ở hai cột percent và percent of case là: Percent thì tính trên tổng số lựa chọn, còn Percent of case là tính trên tổng số trường hợp, nghĩa là tổng số người trả lời, ví dụ ở đây là 6 người do bộ số liệu của chúng ta có 6 dòng nhé.

Như vậy qua bài này bạn đã được biết cách mã hóa nhập liệu và chạy kết quả câu hỏi nhiều lựa chọn multiple answer nhé.

Liên hệ nhóm thạc sĩ Hỗ trợ SPSS để được tư vấn và xử lý về các vấn đề khi làm bài:

– SMS, Zalo, Viber:

phone number

– Chat Facebook: http://facebook.com/hoidapSPSS/

– Email:                 hotrospss@gmail.com

Cách phát hiện đa cộng tuyến trong hồi quy nhị phân logit

Tác hại của đa cộng tuyến trong hồi quy nhị phân logit

Vấn đề đa cộng tuyến ảnh hưởng đến việc giải thích các hệ số trong hồi quy logistic theo cách tương tự như các phương pháp đa biến khác, có lẽ gần giống nhất với hồi quy tuyến tính đa biến. Mức độ đa cộng tuyến cao làm giảm tác động duy nhất của các biến độc lập liên quan và do đó làm sai lệch hệ số ước tính và sai số chuẩn của chúng.

Mặc dù không phải là một vấn đề đối với mức độ phù hợp của mô hình, nhưng nó có khả năng gây nhầm lẫn cho việc giải thích. Hầu hết các chương trình phần mềm chạy hồi quy logistic không cho mục chọn để kiểm tra hiện tượng đa cộng tuyến, nhưng nhà phân tích có thể dễ dàng sử dụng hồi quy đa biến tuyến tính để thu được thông tin này.

Cách phát hiện đa cộng tuyến trong hồi quy nhị phân logit

Vì đa cộng tuyến chỉ dựa trên các biến độc lập trong một mô hình, ta đưa các biến phụ thuộc và độc lập trong hồi quy nhị phân sang chạy bên hồi quy đa biến để thu được kết quả đa cộng tuyến. Lúc này các hệ số ước tính rõ ràng không được sử dụng, nhưng VIF và dung sai tolerance có thể áp dụng được.

Như với hồi quy tuyến tính đa biến thông thường, một cách tiếp cận khác là tính toán các mối tương quan nhị phân giữa các biến độc lập và bất kỳ mối tương quan giữa hai  biến nào bằng .50 hoặc lớn hơn cho thấy khả năng xảy ra các vấn đề đa cộng tuyến.

Quan hệ chỉ số -2LL và R bình phương trong hồi quy nhị thức logit

Ước tính độ phù hợp(model fit) của mô hình logit

Thước đo cơ bản để đánh giá mức độ phù hợp của thủ tục ước tính maximum likelihood là giá trị likelihood, tương tự như tổng các giá trị bình phương sums of squares được sử dụng trong hồi quy tuyến tính đa biến. Hồi quy logistic đo lường ước tính mô hình phù hợp với giá trị -2 lần giá trị log của likelihood, được gọi là -2LL hoặc -2 log likelihood. Giá trị tối thiểu cho -2LL là 0, tương ứng với giá trị hoàn toàn phù hợp (likelihood =1 thì -2LL=0). Do đó, giá trị 22LL càng thấp thì mô hình càng phù hợp. Giá trị 22LL có thể được sử dụng để để tính toán các số đo có thể so sánh với số đo R bình phương trong hồi quy đa biến.

Công thức của hệ số R bình phương trong hồi quy logit như sau:

Trong đó -2LLnull là giá trị -2LL của mô hình null, -2LLmodel là giá trị -2LL của mô hình đang ước lượng. Mô hình null là mô hình không có biến độc lập nào cả.

So sánh các khái niệm của hồi quy tuyến tính đa biến và hồi quy nhị thức logit

Hồi quy tuyến tính đa biến Hồi quy nhị thức logit
Total sum of squares-2LL của null model
Error sum of squares-2LL của model đang chạy
Regression sum of squaressự khác nhau giữa giá trị -2LL của mô hình null và mô hình đang xét
F test để kiểm tra độ phù hợp mô hìnhChi-square test of -2LL difference
Hệ số xác định coefficient of determination R2Pseudo R2 ( R2 giả)