Bậc tự do degrees of freedom (df) được định nghĩa như là: giá trị được tính từ tổng số quan sát trừ đi số tham số ước tính. Trong bất kì phép thống kê nào, nhà nghiên cứu cần ước lượng được giá trị của các tham số trong mô hình từ dữ liệu. Trong trường hợp hồi quy tuyến tính, các tham số này gồm : các hệ số hồi quy ứng với mỗi biến độc lập và hằng số chặn. Ví dụ, khi ước lượng mô hình hồi quy với một biến độc lập. Phương trình như sau: y=b0+b1*x , thì chúng ta ước tính hai tham số, hệ số chặn “b0” và hệ số hồi quy cho biến độc lập “b1”.
Bậc tự do cung cấp thước đo về mức độ hạn chế của dữ liệu để đạt được một mức dự đoán nhất định. Nếu số bậc tự do nhỏ, dự đoán kết quả có thể ít khái quát hơn vì tất cả quan sát đã được đưa vào dự đoán, nhưng số quan sát này khá ít. Ngược lại, một giá trị bậc tự do lớn cho thấy dự đoán là khá chắc chắn liên quan đến việc đại diện cho tổng thể mẫu người trả lời.
Công thức chi tiết của bậc tự do
Mức độ tổng quát hóa được biểu thị bằng bậc tự do, được tính như sau:
Bậc tự do (df) = Cỡ mẫu – Số tham số cần ước lượng
Tương đương với công thức sau:
Bậc tự do (df) = Cỡ mẫu – (Số biến độc lập + 1)
Điều gì xảy ra với khả năng khái quát hóa khi kích thước mẫu tăng lên? Bậc tự do càng lớn, kết quả càng có tính khái quát hóa. Trường hợp cỡ mẫu cố định, bậc tự do tăng lên khi ta giảm số lượng biến độc lập. Như vậy trong trường hợp số tham số cần ước lượng bằng với cỡ mẫu, lúc đó bậc tự do df=0, lúc đó là dự đoán hoàn hảo luôn. Như vậy ta cần phải giảm số biến độc lập( hoặc là tăng số lượng mẫu), làm thấp đi độ chính xác khi dự đoán đồng thời làm tăng số bậc tự do.
Do đó, nhà nghiên cứu đang tìm kiếm mô hình hồi quy tốt nhất, mô hình có độ chính xác dự đoán cao nhất cho hầu hết các quan sát.
Bậc tự do bao nhiêu là đủ
Không có công thức để nói bậc tự do bao nhiêu là đủ lớn, mà chỉ là dấu hiệu của mức độ tổng quát hóa của kết quả.