Chuyển đổi xác suất dự đoán thành Odds trong hồi quy nhị phân
Ở dạng nguyên bản, các xác suất dự đoán không bị giới hạn ở các giá trị từ 0 đến 1. Vì vậy, điều gì sẽ xảy ra nếu chúng ta trình bày lại xác suất theo cách mà biến mới sẽ luôn nằm trong khoảng từ 0 đến 1? Chúng ta xác định lại nó bằng cách biểu thị một xác suất dưới dạng odds – tỷ lệ giữa xác suất của hai kết quả hoặc sự kiện Odds=Prob/(1-Prob). Tỷ lệ odds cũng nhiều lần được nêu như là tần suất tương đối của các sự kiện. Ví dụ, tỷ lệ odds của một sự kiện xảy ra là số sự kiện xảy ra chia cho số sự kiện không xảy ra.
Ví dụ tỉ lệ odds
Trong kỳ thi này, chúng ta có tám trường hợp thành công và hai trường hợp thất bại. Chúng ta biết rằng xác suất thành công là 0.8 và xác suất của kết quả thay thế (tức là thất bại) là 0.2. Sau đó, chúng ta có thể phát biểu điều này dưới dạng tỷ lệ odds với số sự kiện hoặc tỷ lệ xác suất=0.8/0.2=4. Như vậy tỷ lệ thành công là 4, hoặc khả năng thành công cao hơn bốn lần so với thất bại. Ngược lại, chúng ta có thể nêu tỷ lệ thất bại là 0.2/0.8=0.25=1/4 có nghĩa là thất bại xảy ra 1/4 so với với tỷ lệ thành công . Do đó, bất kể chúng ta xem xét kết quả nào (thành công hay thất bại), chúng ta có thể xác định xác suất là tỷ lệ odds và ngược lại, như hình dưới đây:
Sử dụng tỷ lệ odds, bất kỳ giá trị xác suất nào hiện được nêu trong một biến số liệu có thể được ước tính trực tiếp. Bất kỳ giá trị tỷ lệ odds nào cũng có thể được chuyển đổi trở lại thành xác suất nằm trong khoảng từ 0 đến 1. Như bạn có thể phỏng đoán, xác suất .50 dẫn đến tỷ lệ odds là 1.0 (cả hai kết quả đều có cơ hội xảy ra như nhau). Tỷ lệ odds nhỏ hơn 1.0 thể hiện xác suất nhỏ hơn .50 và tỷ lệ odds lớn hơn 1.0 tương ứng với xác suất lớn hơn .50.
Hình sau minh họa một loạt các xác suất từ 0 đến 1 và tỷ lệ odds liên quan của chúng. Chúng ta đã giải quyết vấn đề giới hạn các giá trị dự đoán trong khoảng 0 và 1 bằng cách dự đoán giá trị tỷ lệ odds và sau đó chuyển nó thành xác suất với giá trị từ 0 đến 1.
Tính toán giá trị log odds logit
Biến tỷ lệ odds giải quyết vấn đề đưa ra ước tính xác suất giữa 0 và 1, nhưng chúng ta có một vấn đề khác: Làm thế nào để chúng ta giữ cho các giá trị tỷ lệ odds không xuống dưới 0, đó là giới hạn dưới của tỷ lệ odds (không có giới hạn trên). Giải pháp là tính toán giá trị được gọi là giá trị logit, được tính bằng cách lấy logarit của tỷ lệ odds. Tỷ lệ odds nhỏ hơn 1 sẽ có giá trị logit âm, tỷ lệ odds lớn hơn 1 sẽ có giá trị logit dương và tỷ lệ odds 1 (tương ứng với xác suất là 0.5) có giá trị logit là 0 (xem hình ở trên). Hơn nữa, bất kể giá trị âm có thấp đến đâu, nó vẫn có thể được chuyển đổi bằng cách lấy antilog thành một giá trị odds lúc nào cũng lớn hơn 0.
Với giá trị logit, bây giờ chúng ta có một biến số liệu có thể có cả giá trị âm và dương nhưng luôn có thể được chuyển đổi trở lại giá trị xác suất nằm trong khoảng từ 0 đến 1. Giá trị này bây giờ trở thành biến phụ thuộc của mô hình hồi quy logistic. Tuy nhiên, lưu ý rằng giá trị logit, khi được chuyển đổi lại thành xác suất, không bao giờ thực sự có thể đạt đến chính xác giá trị 0 hoặc 1. Vì giá trị logit vô cùng nhỏ thì xác suất tiến dần về giá trị 0, giá trị logit vô cùng lớn thì xác xuất tiến dần về giá trị 1