All posts by hotrospss

Chỉ số Odds ratio – OR và Confidence Interval – CI: định nghĩa, ý nghĩa và cách tính toán

Nhóm MBA hotrospss@gmail.com ĐH Bách Khoa giới thiệu chi tiết về các khái niệm và cách tính các chỉ số Odd , tỉ số Odds ratio – viết tắt là OR, 95% CI Confidence Interval.
Kèm theo ví dụ minh họa cụ thể.

Mục đích:

Ví dụ minh họa: ta có 100 học sinh, trong đó có học thêm 56 em, không học thêm 44 em. Đồng thời ta cũng thống kê được kết quả thi đậu hoặc thi rớt đại học của 100 em này, có 49 em thi rớt và 51 em thi đậu, như trong bảng sau:

Bài này sẽ làm các việc sau:
-Định nghĩa Odd, Odds Ratio,95% CI Confidence Interval. Và tính toán  bằng tay để ra được các chỉ số:
-Tính chỉ số Odd thi rớt của nhóm có học thêm
-Tính chỉ số Odd  thi rớt của nhóm không học thêm
-Tính Odds Ratio, và so với số 1 để biết được có cần đi học thêm để không thi rớt hay không? Thi rớt đại học có liên quan đến việc học thêm hay không học thêm hay không?
-Tính 95% CI, gồm: khoảng dưới L95 và khoảng trên H95 để biết được khi lặp lại các lần đo lường thì 95% các trường hợp OR sẽ nằm trong giới hạn nào.
-Và cuối cùng là dùng phần mềm SPSS để tính toán các giá trị vừa tính thủ công ở trên để kiểm ra lại cho chắc nhé.

Vậy Odd là gì?

Odd của một biến cố là tỉ số giữa số lần biến cố đó xảy ra và số lần biến cố đó không xảy ra.
Gọi:
O1: là Odd thi rớt của nhóm có học thêm
O2: là Odd thi rớt của nhóm không học thêm


Ta có O1=a/b=4/40=0.1
      O2=c/d=45/11=4.09

Odds Ratio là gì?

Chỉ số Odds Ratio OR, chính là tỉ số hai Odd, được biểu diễn là OR =O1/O2 =0.1/4.09=0.024
Ý nghĩa của chỉ số OR:
OR=1: đi học thêm và không đi học thêm có khả năng đậu như nhau
OR>1: nghĩa là Odd thi rớt của nhóm có học thêm CAO HƠN Odd thi rớt của nhóm không học thêm. Có nghĩa là học thêm có hại
OR<1: Học thêm có lợi. Nghĩa là Odd thi rớt của nhóm có học thêm THẤP HƠN Odd thi rớt của nhóm không học thêm.

Như trong trường hợp này, OR=0.024<1 , chứ tỏ học thêm có lợi, làm cho việc thi đậu dễ dàng hơn. Đã trả lời được cho câu hỏi nghiên cứu:Học thêm có giảm nguy cơ thi rớt?

Vậy khoảng tin cậy  95% CI Confidence Interval là gì?

Vấn đề đặt ra: OR có thể khác khi lặp lại nghiên cứu cho những đối tượng khác, giả sử ta lặp lại 100 lần, và trong đó có 97 lần OR<1 thì đây là một bằng chứng chứng cứ khoa học cho thấy học thêm có lợi. Vậy làm sao ta ước lượng được khoảng tin cậy 95% OR?
Công thức:  95% CI =KHOẢNG TIN CẬY 95% OR= TRUNGBÌNH +- 1.96* ĐỘ LỆCH CHUẨN

Với ĐỘ LỆCH CHUẨN= CĂN BẬC 2 CỦA PHƯƠNG SAI
VẤN ĐỀ: rất khó ước lượng Phương Sai của OR vì đây là 1 tỉ số.
Giải pháp, sẽ ước lượng gián tiếp qua 4 bước như sau:

1.Tính Ln(OR)
2.Tính phương sai và độ lệch chuẩn của ln(OR)
3.Tính khoảng tin cậy 95% của ln(OR)
4.Hoán chuyển khoảng tin cậy 95% của ln(OR) thành khoảng tin cậy 95% của OR bằng cách sửa dụng hàm exp()
Cụ thể ví dụ này:
1. Tính Ln(OR) = ln(0.024)=-3.711
2. Tính phương sai và độ lệch chuẩn của ln(OR)
   Do OR=O1/O2 , nên đặt: L=ln(OR)=ln(O1/O2)=ln(O1)-ln(O2)=ln(a/b)-ln(c/d)
   Công thức toán học về phương sai của L chính là =  1/a+1/b+1/c+1/d = 1/4+1/40+1/45+1/11=0.388
   Độ lệch chuẩn của L = căn bậc 2 của(0.388)=0.623

3.Tính khoảng tin cậy 95% của ln(OR)
Khoảng dưới:L-1.96*ĐỘ LỆCH CHUẨN=-3.711 -1.96*0.623=-4.932
Khoảng trên  :L+1.96*ĐỘ LỆCH CHUẨN=-3.711 +1.96*0.623=-2.490
4.Hoán chuyển khoảng tin cậy 95% của ln(OR) thành khoảng tin cậy 95% của OR bằng cách sửa dụng hàm exp()
Khoảng dưới L95:=exp(-4.932)=0.007
Khoảng trên H95   :=exp(-2.490)=0.083

Ý nghĩa của OR và khoảng tin cậy  95% CI Confidence Interval:

Ví dụ chỉ số OR = 0.0244: nghĩa là Odd thi rớt của nhóm có học thêm bằng 2.44% Odd thi rớt của nhóm không học thêm
Và nếu lặp lại nghiên cứu này 100 lần thì 95% các số OR sẽ dao động từ L95 đến H95, nghĩa là dao động từ 0.007 đến 0.083

File dữ liệu thực hành để tính OR

Ngoài OR Odds Ratio và khoảng tin cậy 95% CI cũng có thể được tính bằng phần mềm SPSS, file dữ liệu của bài này các bạn tải ở đây http://phantichspss.com/filefordownload/Odds-Ratio-95-CI.sav

Khi chạy ra kết quả y hệt phần tính bằng tay như hình sau:

Phần màu xanh là chỉ số Odds Ratio, còn 2 giá trị màu đỏ là mức dưới và trên của 95% Confidence Interval
Như vậy nhóm MBA Bách Khoa đã hướng dẫn chi tiết về các khái niệm và cách tính các chỉ số Odd , tỉ số Odds ratio , 95% CI Confidence Interval. Các bạn khi thực hiện có thắc mắc, cần giải giúp bài tập hoặc cần hỗ trợ xử lý số liệu cho ổn hơn cứ liên hệ nhóm nhé.

Liên hệ nhóm thạc sĩ Hỗ trợ SPSS.

– SMS, Zalo, Viber:

phone number

– Chat Facebook: http://facebook.com/hoidapSPSS/

– Email:                 hotrospss@gmail.com

Phân tích hồi quy đa thức Multinomial logistic regression bằng SPSS

Nhóm Thạc Sĩ QTKD ĐH Bách Khoa giới thiệu về lý thuyết và cách thực hành, cách phân tích ý nghĩa kết quả hồi quy đa thức. Kèm theo file dữ liệu thực hành luôn nhé.

Lý thuyết hồi quy đa thức

Mô hình hồi quy đa thức, còn gọi là hồi quy logistic đa thức (Multinomial logistic regression) tương tự như mô hình hồi quy logistic nhị phân nhưng biến phụ thuộc là biến định tính có nhiều hơn 2 trạng thái.
Ví dụ: dùng hồi quy đa thức để xác định loại nước uống nào được thích hơn. Biến phụ thuộc : loại nước uống ( gồm 3 loại: Cafe, nước giải khát có gas Soft drink , trà và nước lọc), biến độc lập là độ tuổi( là biến liên tục) và vùng miền( là biến phân loại Bắc, Trung, Nam)

Như vậy, biến phụ thuộc là biến phân loại,còn biến độc lập có thể là biến phân loại hoặc là biến liên tục.

Cách thực hành phân tích hồi quy đa thức trên SPSS

Đầu tiên tạo 3 biến trong SPSS như sau:
– Biến độc lập độ tuổi, là biến liên tục, ví dụ 30,31,32 tuổi.
– Biến độc lập vùng miền, là biến phân loại: Nam, Trung, Bắc tương ứng với giá trị mã hóa 0 1 2
– Biến phụ thuộc Loại nước uống yêu thích: Cafe, nước giải khát có gas Soft drink , trà và nước lọc. Tương ứng với mã hóa 0 1 2
Sau đó nhập các giá trị đã khảo sát vào, sẽ được như sau:

Các bạn có thể tải file thực hành hồi quy đa thức ở đây: www.phantichspss.com/filefordownload/phantichspss-hoi-quy-da-thuc.sav

Nhấn vào menu  Analyze > Regression > Multinomial Logistic.

Cửa sổ phân tích hồi quy đa thức hiện ra như sau:

Đưa lần lượt các biến vào như sau
– Biến phụ thuộc phân loại "Loại nước uống" Loainuocuong đưa vào ô Dependent.
– Biến độc lập liên tục "Độ tuổi" Tuoi được đưa vào ô Covariate.
– Biến độc lập phân loại "Vùng miền" Vungmien được đưa vào ô Factor(s).


Mặc định, nhóm tham chiếu của biến phụ thuộc là nhóm cuối cùng, ví dụ Loainuocuong(Last) như hình trên.
Nhấn vào nút Statistics, để hiện ra được bảng Multinomial Logistic Regression: Statistics như sau:


Chọn vào 2 checkboxes Classification table và Goodness-of-fit . Sau đó nhấn Continue
Nhấn nút OK để bắt đầu hiển thị kết quả phân tích hồi quy đa thức.

Cách đọc kết quả phân tích hồi quy đa thức trên SPSS

Bảng Goodness-of-Fit giả thích độ phù hợp của dữ liệu so với mô hình.

Dòng đầu tiên Pearson thể hiện kiểm định chi-square. Giá trị chi-square càng lớn thì mô hình càng kém phù hợp. Nếu sig.<5% thì chắc chắn là mô hình không phù hợp với dữ liệu này. Ở đây ta thấy sig=0.110 >5% nên mô hình này phù hợp với dữ liệu.

Bảng Model Fitting Information

Dòng "Final" thể hiện có phải tất cả các hệ số trong mô hình bằng 0 hay không? Hiểu theo cách khác là nếu mô hình này có biến độc lập được thêm vào thì có tốt hơn là mô hình chỉ có hệ số chặn intercept hay không( mô hình không có biến độc lập). Ở đây giá trị sig.=0.00 < 5% nên ta kết luận mô hình với đầy đủ các biến độc lập dự đoán biến phụ thuộc tốt hơn so với mô hình chỉ có hệ số chặn intercept.

Bảng  Pseudo R-Square và bảng Likelihood Ratio Tests

Trị số R bình phương giả pseudo-R2 gần như tương tự với R bình phương trong hồi quy tuyến tính.
Còn bảng Likelihood Ratio Tests cho ta thấy các biến độc lập có tác động có ý nghĩa thống kê đến biến phụ thuộc hay không? Nếu cột Sig.<0.05 thì biến độc lập đó có tác động. Thật ra bảng này chỉ hữu ích khi đánh giá cho biến phân loại, vì đây là bảng duy nhất cho thấy tác động chung của biến phân loại. Còn phân tích chi tiết như bảng Parameter Estimates dưới đây thì không thấy được tác động chung của biến độc lập phân loại ( ở đây là biến Vùng miền)

Bảng Parameter Estimates dùng để đánh giá các giả thiết có được chấp nhận hay không?

Về ý tưởng, bảng này là kết quả so sánh giữa nhóm Cafe, và nước có gas Soft Drink với nhóm tham chiếu cơ sở là Tea & Water. Việc chọn nhóm tham chiếu cơ sở nào là do mình tự quyết định( có thể làm lúc chọn biến phụ thuộc đưa vào ô Dependent, sau đó nhấn nút Reference Category để chọn nhóm cơ sở).


Phân tích so sánh giữa nhóm tham chiếu Tea & Water và nhóm Cafe:
-Dòng "Tuoi", có sig=0.003 <5%, nên biến Tuoi có ý nghĩa thống kê, hệ số B = -0.251 nên khi tuổi tăng thì sự dịch chuyển từ Tea & Water đến Cafe giảm. Nghĩa là tuổi tăng thì người ta thích uống Tea & Water hơn là Cafe. Cụ thể giá trị B = -0.251 ý nghĩa là log(odds) giảm được 0.251 khi tuổi tăng 1 đơn vị. Còn hệ số exp(B) = exp(-0.251)= 0.778 có ý nghĩa là chỉ số odds của một người 31 tuổi gấp 0.778 lần so với người 30 tuổi, giả định mọi chỉ số khác đều bằng nhau.

– Dòng Vungmien=1 có sig.=0.039<5% nên biến Vùng miền=1 so với Vùng miền =2 có ý nghĩa thống kê. Hệ số B=1.890 nên khi vùng miền chuyển từ vùng 2( miền Bắc) sang vùng 1( miền Trung) thì  sự dịch chuyển từ Tea & Water đến Cafe tăng. Nghĩa là người miền Trung ưa thích Cafe hơn là Tea & Water so với người miền Bắc.
– Do dòng Vungmien=0 có sig.=0.077>5% nên biến Vùng miền=0 so với Vùng miền =2 không có ý nghĩa thống kê.

Tương tự , ta phân tích  so sánh giữa nhóm tham chiếu Tea & Water và nhóm Soft drink.

Còn việc cần so sánh giữa nhóm Cafe vào Soft drink thì sao? Lúc này ta cần thực hiện chạy hồi quy đa thức lại, với nhóm tham chiếu là nhóm Cafe. Lúc đó chương trình sẽ chạy ra lấy nhóm Cafe so với nhóm Tea & Water . Và nhóm Cafe so với nhóm Soft Drink. Việc chọn nhóm tham chiếu bằng cách nhấn nút Reference Category và điền vào số mình cần làm tham chiếu như trong hình.


Như vậy nhóm MBA Bách Khoa đã hướng dẫn phần thực hành chạy và đọc ý nghĩa phân tích hồi quy đa thức. Các bạn khi thực hiện có thắc mắc hoặc cần hỗ trợ xử lý số liệu cho ổn hơn cứ liên hệ nhóm nhé.
Chúc các bạn làm tốt.

Cách cài đặt PROCESS macro để xử lý biến trung gian, biến điều tiết trên SPSS

Hôm nay nhóm Ths QTKD Bách Khoa giới thiệu cách cài đặt PROCESS macro để xử lý biến trung gian, biến điều tiết trên SPSS nhé. Phần mềm PROCESS này được tiến sĩ Andrew F. Hayes thực hiện.
PROCESS hoạt động trên SPSS phiên bản 18 trở lên. PROCESS có thể được cài ở Windows và Mac OS.
Việc cài đặt PROCESS mục đích chính là để xử lý cho mô hình SPSS có biến điều tiết, biến trung gian.


Mục đích chính của bài này là cài được menu PROCESS, để khi vào chương trình nó xuất hiện như sau:
 

Bước 1: vào http://www.afhayes.com/public/processv3.zip để tải PROCESS 3.0 nhé. Sau khi tải về giải nén ra thư mục ngoài Desktop sẵn để chuẩn bị cài đặt PROCESS macro
Bước 2: Mở SPSS bằng quyền Administrator. Bằng cách nhấn chuột phải vào biểu tượng SPSS Statistics và chọn "Run as administrator"
 

Bước 3: Sau khi mở SPSS, dưới menu "Utilities" , chọn "Custom Dialogs" , sau đó chọn tiếp "Install Custom Dialog,". Sau đó chọn file "process.spd" nằm trong thư mục vừa giải nén ở Desktop lúc nãy, sau đó nhấn "Open."

 

Bước 4: Kiểm tra lại trong menu Analyze -> Regression đã xuất hiện mục "PROCESS v3.0 by Andrew F.Hayes" chưa nhé. Nếu đã có thì việc cài đặt PROCESS macro đã thành công.
Bước 5: Khi cần phân tích SPSS có biến trung gian, biến điều tiết, với dạng mô hình phù hợp thì nhấn vào menu ở bước 4. Kết quả ra như sau:


Như vậy nhóm MBA Bách Khoa đã hướng dẫn các bạn chi tiết cách cài đặt PROCESS macro của tiến sĩ Andrew F. Hayes trên SPSS. Các bạn khi phân tích có khó khăn, hoặc cần hướng dẫn về việc phân tích biến trung gian, biến điều tiết, hoặc cần xử lý số liệu cho tốt hơn cứ liên hệ nhóm nhé.