Khi mới làm quen với khái niệm hồi quy, câu hỏi khi nào cần sử dụng hồi quy logistic và khi nào cần sử dụng hồi quy tuyến tính cần được làm rõ. Nói chung việc quyết định sử dụng loại hồi quy nào chủ yếu là do DẠNG của biến phụ thuộc. Nếu biến phụ thuộc liên tục thì hồi quy tuyến tính, nếu biến phụ thuộc phân loại hoặc nhị phân thì sử dụng hồi quy logistic. Lưu ý hồi quy logistic ở đây lại chia ra làm 2 loại: Loại biến phụ thuộc chỉ có 2 biểu hiện (ví dụ có/ không) và loại biến phụ thuộc có nhiều hơn 2 biểu hiện( ví dụ chọn loại cây để gieo trồng: cây ngô, cây lúa, hoặc cây đậu phộng)… Hôm nay Thạc Sĩ Khánh và nhóm sẽ làm rõ vấn đề này nhé, chúng ta sẽ tìm hiểu sự khác biệt giữa hai phương pháp, khi nào nên sử dụng hồi quy logistic thay vì hồi quy tuyến tính, và cách áp dụng chúng trong SPSS.
Hồi quy tuyến tính đa biến là phương pháp hồi quy phổ biến nhất trong thống kê. Tuy nhiên, không phải lúc nào nó cũng phù hợp. Khi biến phụ thuộc có tính chất nhị phân hoặc phân loại, chúng ta cần sử dụng một phương pháp khác – hồi quy logistic.
Sự khác biệt giữa hồi quy tuyến tính và hồi quy logistic
Hồi quy tuyến tính là gì?
Hồi quy tuyến tính là một phương pháp dự đoán biến phụ thuộc dạng liên tục dựa trên một hoặc nhiều biến độc lập. Ví dụ: Dự đoán mức lương của một người dựa trên số năm kinh nghiệm, trình độ học vấn. Biến phụ thuộc là biến dạng 1 2 3 4 5, hoặc giá trị tiền lương… nghĩa là biến này có khả năng có nhiều giá trị khác nhau, theo xu hướng tăng dần hoặc giảm dần. Và các giá trị này so sánh với nhau được, ví dụ là số 2 lớn hơn số 1.
Hồi quy logistic là gì?
Hồi quy logistic được sử dụng khi biến phụ thuộc không phải liên tục và thuộc một trong 3 dạng sau:
- Hồi quy logistic nhị phân (Binary Logistic Regression) được sử dụng khi biến phụ thuộc chỉ có hai giá trị (0/1, có/không, đạt/không đạt ).
- Hồi quy logistic đa thức (Multinomial Logistic Regression) được sử dụng khi biến phụ thuộc có từ ba nhóm trở lên mà không có thứ tự. Ví dụ: Dự đoán loại phương tiện khách hàng chọn (1 = Xe máy, 2 = Ô tô, 3 = Xe đạp).
- Hồi quy logistic thứ tự (Ordinal Logistic Regression) được sử dụng khi biến phụ thuộc có từ ba nhóm trở lên và có thứ tự. Dạng hồi quy này ít áp dụng trong thực tế
Cả 3 mô hình này trả về một giá trị xác suất thay vì giá trị liên tục như hồi quy tuyến tính.
Khi nào nên sử dụng hồi quy logistic thay vì hồi quy tuyến tính?
Dưới đây là các tình huống mà ta không thể sử dụng hồi quy tuyến tính và cần chuyển sang hồi quy logistic.
Khi biến phụ thuộc không phải là dữ liệu liên tục
- Nếu biến phụ thuộc là nhị phân (0/1, có/không, đạt/không đạt) → Dùng hồi quy logistic
- Nếu biến phụ thuộc là phân loại nhiều nhóm (loại A, B, C) → Dùng hồi quy logistic đa thức (multinomial logistic regression)
- Nếu biến phụ thuộc có thứ tự (kém, trung bình, tốt) → Dùng hồi quy logistic thứ tự (ordinal logistic regression)
Ví dụ: dùng hồi quy logistic khi dự đoán một người có mắc bệnh tim không (Yes/No). Lúc đó không thể dùng hồi quy tuyến tính vì kết quả phải là 0 hoặc 1, không thể có giá trị trung gian như 0.4 hay 0.8.
Khi cần diễn giải kết quả dưới dạng Odds Ratio (Tỷ số chênh – OR)
Hồi quy logistic giúp đánh giá ảnh hưởng của biến độc lập lên biến phụ thuộc bằng Odds Ratio (Exp(B)). Trong khi hồi quy tuyến tính không thể tính toán tỷ số OR.
Ví dụ: dùng hồi quy logistic để xem nếu tăng 1 triệu đồng thu nhập, xác suất mua hàng tăng lên bao nhiêu lần.
Cách chạy hồi quy logistic trong SPSS
- Chạy hồi quy logistic nhị phân https://phantichspss.com/huong-dan-thuc-hanh-phan-tich-hoi-quy-nhi-phan-binary-logistic.html
- Chạy hồi quy logistic đa thức https://phantichspss.com/phan-tich-hoi-quy-da-thuc-multinomial-logistic-regression-bang-spss.html
Kết luận – Khi nào dùng hồi quy logistic?
Tình huống | Hồi quy tuyến tính | Hồi quy logistic |
Biến phụ thuộc là số liên tục | x | |
Biến phụ thuộc là nhị phân (0/1) | x | |
Biến phụ thuộc là danh mục có thứ tự | x | |
Không cần giả định phân phối chuẩn | x | |
Kết quả cần nằm trong khoảng 0-1 | x | |
Diễn giải kết quả dưới dạng xác suất | x |
- Nếu biến phụ thuộc là số liên tục → Dùng hồi quy tuyến tính.
- Nếu biến phụ thuộc là nhị phân hoặc phân loại → Dùng hồi quy logistic.
- Nếu muốn diễn giải dưới dạng tỷ số OR (Odds Ratio) → Dùng hồi quy logistic.
Nếu bạn cần hỗ trợ phân tích dữ liệu bằng hồi quy logistic trong SPSS, hãy liên hệ ThS Khánh & nhóm Thạc Sĩ QTKD nhé.