Phần dư residual là gì?
Phần dư cho lần quan sát thứ i được tính bằng giá trị thực tế trừ đi giá trị dự đoán của biến phụ thuộc. Giá trị dự đoán chính là giá trị được tính dựa vào phương trình hồi quy, bằng cách thế các giá trị của quan sát của biến độc lập vào phương trình.
Ví dụ minh họa residual dễ hiểu. Giả sử ta có bảng số liệu sau, x là biến độc lập, y là biến phụ thuộc.
File spss số liệu ở đây : file phantichspss.com/filefordownload/residual.sav
Đưa vào phần mềm định lượng chạy sẽ cho ta được phương trình hồi quy như sau:
y=2.031+0.371x
Ví dụ dòng dầu tiên, x=1.8, giá trị quan sát y bằng 3 , khi đó giá trị dự đoán của y là theo phương trình y=2.031+0.371x =2.031+0.371*1.8=2.6988, lúc đó giá trị:
y_quan_sát – y_dự đoán=3-2.6988=0.3. Đây chính là phần dư residual, chính là dòng đầu tiên của cột RES_1 như phần mũi tên đỏ trên hình.
Phần dư thực tế có thể có nhiều dạng dựa trên kết quả của hai quy trình: các trường hợp được sử dụng để tính giá trị dự đoán và việc sử dụng (hoặc không sử dụng) một số dạng chuẩn hóa. Chúng ta sẽ xem xét từng quy trình trong các phần sau và sau đó thảo luận về cách chúng được “kết hợp” để tạo ra các loại phần dư cụ thể.
Deleted Residual là gì?
Chúng ta đã biết cách tính phần dư bằng cách sử dụng tất cả các quan sát, nhưng dạng thứ hai, phần dư bị xóa(deleted residual), khác với phần dư thông thường ở chỗ quan sát thứ i bị bỏ qua khi ước tính phương trình hồi quy được sử dụng để tính giá trị dự đoán cho quan sát đó . Do đó, mỗi quan sát không có tác động đến giá trị dự đoán của chính nó trong deleted residual. Deleted residual ít được sử dụng hơn, mặc dù nó có lợi ích là giảm ảnh hưởng của quan sát đến tính toán của nó.
Phần dư chuẩn hóa standardized residuals là gì?
Quy trình thứ hai trong việc xác định phần dư bao gồm việc có chuẩn hóa phần dư hay không. Phần dư không được chuẩn hóa có cùng thang đo của biến phụ thuộc. Ví dụ biến phụ thuộc là thang đo likert5 thì đơn vị của phần dư cũng là các điểm likert này , cũng là các mức độ của thang đo này, điều này rất hữu ích trong việc giải thích nhưng không mang lại cái nhìn sâu sắc về những gì quá lớn hoặc đủ nhỏ để không cần xem xét.
Phần dư chuẩn hóa(Standardized residuals) là kết quả của một quá trình tạo ra một thang đo chung bằng cách chia mỗi phần dư cho độ lệch chuẩn của các phần dư đó. Sau khi chuẩn hóa, các phần dư có giá trị trung bình bằng 0 và độ lệch chuẩn là 1. Với cỡ mẫu khá lớn (50 trở lên), phần dư chuẩn hóa xấp xỉ tuân theo phân phối t, giá vượt quá ngưỡng như 1,96 (giá trị t tới hạn ở mức tin cậy 0,05) có thể được coi là có ý nghĩa thống kê.
Trong hình trên phần dư chuẩn hóa chính là cột ZRE_1, các giá trị ở cột này chính là giá trị chuẩn hóa của cột phần dư RES_1 bên cạnh nó.
Studentized residual là gì?
Một dạng đặc biệt của phần dư chuẩn hóa là studentized residual. Nó tương tự về khái niệm đối với phần dư bị xóa, nhưng trong trường hợp này, quan sát thứ i bị loại bỏ khi tính độ lệch chuẩn được sử dụng để chuẩn hóa phần dư thứ i. Phần dư studentized residual loại bỏ tác động của trường hợp đối với quá trình tiêu chuẩn hóa và cung cấp một biện pháp còn lại “ít bị ảnh hưởng hơn”. Nó có thể được đánh giá bằng các tiêu chí tương tự như phần dư được tiêu chuẩn hóa.
Trong hình trên phần dư chuẩn hóa chính là cột SRE_1
Tóm tắt các loại phần dư thông dụng nhất
Năm loại phần dư thường được tính bằng cách kết hợp các tùy chọn để tính toán và tiêu chuẩn hóa là (1) normal residual, (2) deleted residual, (3) standardized residual, (4) studentized residual, (5) studentized deleted residual. Mỗi loại phần dư cung cấp các quan điểm độc đáo về cả độ chính xác dự đoán của phương trình hồi quy bằng cách chỉ định các giá trị ngoại lai và các ảnh hưởng có thể có của quan sát đối với kết quả tổng thể.