Tại sao hồi quy ra R² thấp

Trong phân tích hồi quy, chỉ số R² (R bình phương) luôn là một trong những tiêu chí đầu tiên mà người nghiên cứu quan tâm khi đánh giá chất lượng mô hình. Khi chạy SPSS hoặc Stata, nhiều bạn thường kỳ vọng R² phải cao thì mô hình mới “tốt”, và ngược lại, nếu R² thấp thì lập tức nghi ngờ dữ liệu hoặc cho rằng mô hình không đạt yêu cầu. Tuy nhiên, cách hiểu này chưa hoàn toàn chính xác và có thể dẫn đến những quyết định sai lầm trong quá trình xử lý số liệu.

Thực chất, R² phản ánh tỷ lệ biến thiên của biến phụ thuộc được giải thích bởi các biến độc lập trong mô hình. Khi R² thấp, điều đó có nghĩa là phần lớn sự biến động của biến phụ thuộc đến từ những yếu tố khác chưa được đưa vào mô hình hoặc từ các yếu tố ngẫu nhiên. Nhưng trong nhiều trường hợp, đặc biệt là các nghiên cứu về hành vi, kinh tế hay xã hội, việc R² thấp lại là điều hoàn toàn bình thường và không nhất thiết phản ánh chất lượng nghiên cứu kém. Ví dụ qua kinh nghiệm của tôi, các nghiên cứu liên quan ROA, ROE, lạm phát INF, GDP thì R2 tầm 30% đã là cao rồi.

Một trong những nguyên nhân phổ biến nhất khiến R² thấp là do mô hình chưa đưa vào đầy đủ các biến quan trọng. Trong nghiên cứu thực tế, việc xác định đầy đủ tất cả các yếu tố ảnh hưởng là rất khó, đặc biệt với những vấn đề liên quan đến hành vi con người. Ví dụ, khi nghiên cứu ý định mua hàng, nếu chỉ sử dụng các biến như giá cả và chất lượng mà bỏ qua các yếu tố như thương hiệu, cảm nhận cá nhân hay ảnh hưởng xã hội thì khả năng giải thích của mô hình sẽ bị hạn chế đáng kể. Khi đó, R² thấp không phải do sai phương pháp mà do mô hình chưa bao quát hết bản chất của vấn đề.

Bên cạnh đó, bản thân dữ liệu trong các nghiên cứu xã hội thường chứa nhiều yếu tố ngẫu nhiên và khó kiểm soát. Hành vi con người chịu ảnh hưởng bởi cảm xúc, hoàn cảnh và thời điểm, nên rất khó dự đoán một cách chính xác. Điều này làm cho biến phụ thuộc có độ nhiễu cao, dẫn đến việc mô hình khó giải thích toàn bộ biến thiên và R² vì thế cũng bị giảm xuống. Đây là lý do tại sao trong các nghiên cứu hành vi, R² ở mức 0.2 đến 0.4 vẫn được xem là chấp nhận được.

Một nguyên nhân khác ảnh hưởng mạnh đến R² là việc lựa chọn sai dạng mô hình. Trong nhiều trường hợp, mối quan hệ giữa các biến không phải là tuyến tính như giả định ban đầu mà có thể là phi tuyến hoặc có sự tương tác giữa các biến. Nếu người nghiên cứu vẫn sử dụng hồi quy tuyến tính thông thường mà không kiểm tra các dạng quan hệ này, mô hình sẽ không phản ánh đúng bản chất dữ liệu, từ đó làm giảm đáng kể giá trị R².

Ngoài ra, chất lượng thang đo và dữ liệu cũng đóng vai trò rất quan trọng. Nếu các biến độc lập được đo lường không chính xác, thang đo không đạt độ tin cậy hoặc các biến quan sát không hội tụ tốt trong phân tích nhân tố, thì các biến đưa vào hồi quy sẽ không đại diện đúng cho khái niệm nghiên cứu. Điều này khiến mô hình không thể giải thích tốt biến phụ thuộc. Đồng thời, các vấn đề như dữ liệu ngoại lai, nhập sai số liệu hoặc xử lý missing value không hợp lý cũng có thể làm nhiễu kết quả và kéo R² xuống thấp.

Một yếu tố khác cần xem xét là kích thước và tính đa dạng của mẫu nghiên cứu. Nếu mẫu quá nhỏ hoặc quá đồng nhất, biến phụ thuộc sẽ ít biến động(ví dụ thang đo likert 5 mức mà biến phụ thuộc lúc nào cũng có giá trị 4-5), khiến mô hình khó tìm ra mối quan hệ rõ ràng giữa các biến. Khi đó, R² thấp không phải do mô hình sai mà do dữ liệu không đủ thông tin để phản ánh mối quan hệ.

Điều quan trọng mà nhiều người thường bỏ qua là R² không phải là tiêu chí duy nhất để đánh giá mô hình. Một mô hình có R² thấp nhưng các biến độc lập đều có ý nghĩa thống kê, hệ số mang dấu phù hợp với lý thuyết và có thể giải thích được thực tiễn thì vẫn hoàn toàn có giá trị nghiên cứu. Ngược lại, một mô hình có R² cao nhưng sai về mặt lý thuyết hoặc không có ý nghĩa thống kê thì cũng không có nhiều giá trị.

Nếu bạn đang gặp tình trạng chạy hồi quy ra R² thấp và không biết nguyên nhân nằm ở đâu, thì việc nhờ hỗ trợ chuyên sâu là một lựa chọn hợp lý( hãy zalo 0903396688 – ThS Khánh ngay nhé). Với kinh nghiệm xử lý số liệu thực tế, bạn có thể được hỗ trợ kiểm tra toàn bộ dữ liệu, xác định nguyên nhân khiến R² thấp và đưa ra hướng xử lý phù hợp như làm sạch dữ liệu, điều chỉnh thang đo hoặc tối ưu mô hình. Mục tiêu không phải là “làm đẹp số liệu” một cách giả tạo, mà là giúp dữ liệu phản ánh đúng bản chất và nâng cao khả năng giải thích một cách hợp lý.

Tóm lại, R² thấp không phải là vấn đề nếu bạn hiểu rõ nguyên nhân và có hướng xử lý đúng. Thay vì cố gắng nâng R² bằng mọi giá, hãy tập trung vào việc xây dựng mô hình đúng, dữ liệu sạch và kết quả có ý nghĩa. Khi đó, mô hình của bạn vẫn có giá trị học thuật cao, ngay cả khi R² không quá lớn.

Nhóm MBA Hỗ Trợ SPSS

– SMS, Zalo, Viber: