Ba cách rút gọn dữ liệu:chọn một biến duy nhất, tính tổng hoặc trung bình cộng và tính theo factor scores

Giới thiệu

Sau khi phân tích số liệu, từ dữ liệu thô có nhiều thang đo, ta cần nhóm các thang đo lại để thực hiện các bước phân tích tiếp theo, ví dụ như sau khi phân tích nhân tố EFA thì cần tạo ra các biến đại diện cho các nhân tố để thực hiện các bước như là tương quan và hồi quy. Có ba cách để thực hiện:
Cách 1: Chọn một thang đo có hệ số tải nhân tố cao nhất trong từng nhân tố để làm giá trị đại diện cho nhân tố đó
Cách 2: Thay thế các biến gốc trong cùng nhân tố bằng một biến mới hoàn toàn, bằng các dùng giá trị tổng các thang đo, hoặc trung bình cộng các thang đo.
Cách 3: Thay thế các biến gốc trong cùng nhân tố bằng một biến mới hoàn toàn, bằng các dùng hệ số điểm nhân tố factor scores.
Cho dù dùng cách nào đi nữa thì mục đích là để tạo ra biến mới đại diện cho tập hợp các biến cũ.

Cách 1: Chọn một thang đo có hệ số tải nhân tố cao nhất

Nhìn vào tên của cách nào là cũng đã biết cách làm, các bạn chạy phân tích EFA xong , ví dụ ra được 3 nhân tố đi, thì bảng ma trận xoay có 3 cột.

Ở mỗi cột đều có hệ số tải nhân tố. Ở mỗi cột này bạn chọn dòng nào có hệ số tải nhân tố cao nhất thì bạn lấy biến đó làm đại diện cho nhân tố đó luôn. Tuy nhiên có trường hợp có hai thang đo trong cùng nhân tố có hệ số tải cao và đều có giá trị tương đương nhau sẽ làm cho việc lựa chọn khó khăn hơn. Lúc đó bạn cần phải xem xét nội dung của thang đo đó để quyết định lựa chọn, do đó phương pháp này cũng có một số khuyết điểm:nguy cơ kết quả phân tích sai do chỉ chọn 1 thang đo để đại diện cho toàn bộ nhân tố phức tạp.

Cách 2: Thay thế các biến gốc trong cùng nhân tố bằng một biến mới hoàn toàn, bằng các dùng giá trị tổng các thang đo, hoặc trung bình cộng các thang đo

Cách này thì chính xác hơn cách 1 ở trên. Chúng ta có thể lựa chọn các thang đo có hệ số tải cao khi phân tích nhân tố ( thường là >0.5) sau đó tính tổng / hoặc tính trung bình cộng các thang đo. Cách thông dụng là tính trung bình cộng của các thang đo, để sau này dễ dàng hơn khi phân tích các bước sau. Nhưng lưu ý là để tính tổng hoặc trung bình như vầy thì các thang đo này phải có tính đơn hướng unidimensional, nghĩa là các thang đo gắn kết chặt với nhau trong cùng 1 khái niệm. Để kiểm tra có đơn hướng hay không thì cần xác định các thang đo đó có tải factor loading cao trong cùng 1 nhân tố.
Như phần mềm SPSS thì có thể tính tổng/trung bình bằng cách vào menu Tranform-Compute variable sau đó nhập vào hàm mean như hình, hoặc hàm sum


Lúc đó biến mới sẽ được tạo trong bộ số liệu.

Cách 3: Thay thế các biến gốc trong cùng nhân tố bằng một biến mới hoàn toàn, bằng các dùng điểm số nhân tố factor scores.

Cách này khi phân tích nhân tố EFA bạn chỉ việc chọn vào option factor score save as variable như hình.
 
 Lúc đó bộ số liệu sẽ được tính ra tự động điểm factor score cho bạn đó là các biến FAC1_1 FAC2_1 FAC3_1.

Điểm khác biệc của cách này so với cách tính trung bình ở trên là: factor scores được tính dựa trên hệ số tải nhân tố factor loading của TẤT CẢ biến có tải lên nhân tố đó, trong khi cách tính trung bình chỉ lấy những biến có hệ số tải cao để tính toán thôi. Do đó mặc dù ta có thể đặt tên nhân tố dựa vào nhưng thang đo có hệ số tải cao nhất, nhưng bản chất là điểm factor scores này đã bao gồm các thang đo có hệ số tải thấp (và các thang đo này thuộc về nhân tố khác). Ưu điểm là đại diện được tất cả các biến có tải lên nhân tố, là cách tốt nhất để rút gọn hoàn toàn số liệu, có thể tránh được hiện tượng đa cộng tuyến giữa các nhân tố( khi chạy hồi quy với factor score thì hệ số phóng đại phương sai và hệ số VIF tất cả đều bằng 1 nhé).

Như vậy việc lựa chọn phương pháp rút gọn dữ liệu nào là thích hợp?

Để lựa chọn 1 trong 3 cách thức trên, chúng ta phải cân nhắc lợi và hại của mỗi phương pháp rút gọn dữ liệu và phải chấp nhận đánh đổi ưu điểm và nhược điểm của mỗi phương pháp. Quy tắc như sau:
-Nếu số liệu chỉ sử dụng trong các quan sát thu thập gốc được, việc diễn giải không quan trọng lắm, thì sử dụng theo factor scores.
– Nếu mong muốn khả năng khái quát hóa hoặc khả năng chuyển giao cho các bước phân tích tiếp theo, thì các thang đo trung bình/tổng/ hoặc 1 biến đại diện có hệ số tải cao nhất sẽ thích hợp hơn. Nếu thang đo một công cụ được xây dựng tốt, hợp lệ và đáng tin cậy, thì cách tính tổng/trung bình là lựa chọn tốt nhất.
-Nếu thang đo này chưa được kiểm định tính đơn hướng, có ít khả năng có độ tin cậy cao thì cách lấy 1 biến đại diện có hệ số tải cao nhất sẽ thích hợp hơn.