Khi phân tích số liệu, có trường hợp cần phải biến đổi lại số liệu theo một hoặc nhiều dạng nào đó, sau đây là một số dạng thông dụng như chuẩn hóa standardization, centering số liệu…
Centering
Centering là cách biến đổi dữ liệu trong đó mỗi quan sát được trừ cho 1 giá trị nhất định( ví dụ giá trị trung bình của biến đó). Việc này tương tự như chuẩn hóa 1 biến standardization ngoại trừ không có chia cho giá trị độ lệch chuẩn. Mục tiêu để tăng cường khả năng so sánh giữa các biến. Nghĩa là vẫn giữ sự biến thiên giá trị gốc, nhưng làm cho nó có quan hệ với giá trị trung bình của nó.
File excel minh họa về chuyển đổi số liệu ở đây: phantichspss.com/filefordownload/centering-standardization.xlsx
Số liệu gốc có 10 giá trị là: (40 46 64 30 100 11 46 49 74 78), từ đó ta tính được giá trị trung bình của 10 số này là 53.8, và độ lệch chuẩn là 25.7. Giá trị centering là cột tô vàng thứ 3, chính là bằng giá trị của biến đó trừ cho số trung bình, ví dụ dòng đầu tiên giá trị centering = 40-53.8 = -13.8
Chuẩn hóa standardization
Chuẩn hóa standardization có nhiều dạng, nhưng thông dụng nhất là chỉ số z score, cách làm là áp dụng cho 1 biến thôi nhé, ta lấy giá trị từng quan sát trừ cho giá trị trung bình của biến đó, sau đó chia cho độ lệch chuẩn của biến đó. Điều bất ngờ là bộ số liệu mới có phân phối chuẩn với trung bình là 0 và độ lệch chuẩn là 1. Giá trị z score của 1 quan sát lớn hơn hoặc bé hơn số 0 cứng tỏ quan sát khác với giá trị trung bình của biến đó có tính theo độ lệch chuẩn. Ví dụ z score là 0.8 chứng tỏ quan sát đó có giá trị 0.8 lần độ lệch chuẩn trên giá trị trung bình. Có nghĩa là quan sát gốc cách xa giá trị trung bình gốc 1 khoảng là =(0.8 * độ lệch chuẩn)
Ví dụ ở trên, giá trị chuẩn hóa standardization là cột tô vàng thứ 5, chính là bằng giá trị của biến đó trừ cho số trung bình, sau đó chia cho độ lệch chuẩn ví dụ dòng đầu tiên giá trị chuẩn hóa standardization = (40-53.8)/25.7 = -0.54.
Ta có thể dùng SPSS để tạo ra giá trị chuẩn hóa z-scrore. Bằng cách vào menu thống kê mô tả, và chọn vào Save standardized value as variables.
Sau đó nhấn OK, kết quả là số liệu đã có cột chuẩn hóa z-score tương tự như làm với excel ở trên
Ipsatizing
Một dạng khác của centering là ipsatizing, đây là một cách biến đổi dữ liệu cho một tập hợp biến quan sát có cùng thang đo. Nhưng giá trị được trừ ở đây thay vì là giá trị trung bình của 1 biến như centering, thì nó là giá trị trung bình của tất cả các biến của tập hợp biến đó theo từng quan sát. Nghĩa là mỗi dòng số liệu sẽ có 1 số mean là trung bình của các biến trong tập biến đó, và giá trị ipsatizing bằng với giá trị gốc trừ cho số trung bình vừa được tính.