All posts by hotrospss

Ba cách rút gọn dữ liệu:chọn một biến duy nhất, tính tổng hoặc trung bình cộng và tính theo factor scores

Giới thiệu

Sau khi phân tích số liệu, từ dữ liệu thô có nhiều thang đo, ta cần nhóm các thang đo lại để thực hiện các bước phân tích tiếp theo, ví dụ như sau khi phân tích nhân tố EFA thì cần tạo ra các biến đại diện cho các nhân tố để thực hiện các bước như là tương quan và hồi quy. Có ba cách để thực hiện:
Cách 1: Chọn một thang đo có hệ số tải nhân tố cao nhất trong từng nhân tố để làm giá trị đại diện cho nhân tố đó
Cách 2: Thay thế các biến gốc trong cùng nhân tố bằng một biến mới hoàn toàn, bằng các dùng giá trị tổng các thang đo, hoặc trung bình cộng các thang đo.
Cách 3: Thay thế các biến gốc trong cùng nhân tố bằng một biến mới hoàn toàn, bằng các dùng hệ số điểm nhân tố factor scores.
Cho dù dùng cách nào đi nữa thì mục đích là để tạo ra biến mới đại diện cho tập hợp các biến cũ.

Cách 1: Chọn một thang đo có hệ số tải nhân tố cao nhất

Nhìn vào tên của cách nào là cũng đã biết cách làm, các bạn chạy phân tích EFA xong , ví dụ ra được 3 nhân tố đi, thì bảng ma trận xoay có 3 cột.

Ở mỗi cột đều có hệ số tải nhân tố. Ở mỗi cột này bạn chọn dòng nào có hệ số tải nhân tố cao nhất thì bạn lấy biến đó làm đại diện cho nhân tố đó luôn. Tuy nhiên có trường hợp có hai thang đo trong cùng nhân tố có hệ số tải cao và đều có giá trị tương đương nhau sẽ làm cho việc lựa chọn khó khăn hơn. Lúc đó bạn cần phải xem xét nội dung của thang đo đó để quyết định lựa chọn, do đó phương pháp này cũng có một số khuyết điểm:nguy cơ kết quả phân tích sai do chỉ chọn 1 thang đo để đại diện cho toàn bộ nhân tố phức tạp.

Cách 2: Thay thế các biến gốc trong cùng nhân tố bằng một biến mới hoàn toàn, bằng các dùng giá trị tổng các thang đo, hoặc trung bình cộng các thang đo

Cách này thì chính xác hơn cách 1 ở trên. Chúng ta có thể lựa chọn các thang đo có hệ số tải cao khi phân tích nhân tố ( thường là >0.5) sau đó tính tổng / hoặc tính trung bình cộng các thang đo. Cách thông dụng là tính trung bình cộng của các thang đo, để sau này dễ dàng hơn khi phân tích các bước sau. Nhưng lưu ý là để tính tổng hoặc trung bình như vầy thì các thang đo này phải có tính đơn hướng unidimensional, nghĩa là các thang đo gắn kết chặt với nhau trong cùng 1 khái niệm. Để kiểm tra có đơn hướng hay không thì cần xác định các thang đo đó có tải factor loading cao trong cùng 1 nhân tố.
Như phần mềm SPSS thì có thể tính tổng/trung bình bằng cách vào menu Tranform-Compute variable sau đó nhập vào hàm mean như hình, hoặc hàm sum


Lúc đó biến mới sẽ được tạo trong bộ số liệu.

Cách 3: Thay thế các biến gốc trong cùng nhân tố bằng một biến mới hoàn toàn, bằng các dùng điểm số nhân tố factor scores.

Cách này khi phân tích nhân tố EFA bạn chỉ việc chọn vào option factor score save as variable như hình.
 
 Lúc đó bộ số liệu sẽ được tính ra tự động điểm factor score cho bạn đó là các biến FAC1_1 FAC2_1 FAC3_1.

Điểm khác biệc của cách này so với cách tính trung bình ở trên là: factor scores được tính dựa trên hệ số tải nhân tố factor loading của TẤT CẢ biến có tải lên nhân tố đó, trong khi cách tính trung bình chỉ lấy những biến có hệ số tải cao để tính toán thôi. Do đó mặc dù ta có thể đặt tên nhân tố dựa vào nhưng thang đo có hệ số tải cao nhất, nhưng bản chất là điểm factor scores này đã bao gồm các thang đo có hệ số tải thấp (và các thang đo này thuộc về nhân tố khác). Ưu điểm là đại diện được tất cả các biến có tải lên nhân tố, là cách tốt nhất để rút gọn hoàn toàn số liệu, có thể tránh được hiện tượng đa cộng tuyến giữa các nhân tố( khi chạy hồi quy với factor score thì hệ số phóng đại phương sai và hệ số VIF tất cả đều bằng 1 nhé).

Như vậy việc lựa chọn phương pháp rút gọn dữ liệu nào là thích hợp?

Để lựa chọn 1 trong 3 cách thức trên, chúng ta phải cân nhắc lợi và hại của mỗi phương pháp rút gọn dữ liệu và phải chấp nhận đánh đổi ưu điểm và nhược điểm của mỗi phương pháp. Quy tắc như sau:
-Nếu số liệu chỉ sử dụng trong các quan sát thu thập gốc được, việc diễn giải không quan trọng lắm, thì sử dụng theo factor scores.
– Nếu mong muốn khả năng khái quát hóa hoặc khả năng chuyển giao cho các bước phân tích tiếp theo, thì các thang đo trung bình/tổng/ hoặc 1 biến đại diện có hệ số tải cao nhất sẽ thích hợp hơn. Nếu thang đo một công cụ được xây dựng tốt, hợp lệ và đáng tin cậy, thì cách tính tổng/trung bình là lựa chọn tốt nhất.
-Nếu thang đo này chưa được kiểm định tính đơn hướng, có ít khả năng có độ tin cậy cao thì cách lấy 1 biến đại diện có hệ số tải cao nhất sẽ thích hợp hơn.

Ba thành phần của construct validity: convergent validity, discriminant validity, nomological validity

Khi làm bài nghiên cứu, vấn đề thường được đề cập là construct validity, vậy đó là gì và làm sao phải đánh giá construct validity ở nhiều công đoạn lặp lại như vậy( EFA,CFA), nhóm MBA Bách Khoa sẽ bàn thêm về vấn đề này nhé.

Tính hợp lệ của thang đo(construct validity) là gì?

Tính hợp lệ của thang đo(construct validity) là mức độ mà thang đo thể hiện chính xác khái niệm. Ba hình thức construct validity được chấp nhận rộng rãi nhất là giá trị hội tụ, phân biệt và danh nghĩa.

 

Convergent validity

Convergent validity là độ giá trị hội tụ, dùng  đánh giá mức độ tương quan của các thang đo của cùng một khái niệm. Ở đây nhà nghiên cứu có thể tìm kiếm các thang  đo khác nhau của một khái niệm và sau đó đánh giá mối  tương quan của thang đo đó với lại thang đo tổng hợp. Mức độ tương quan cao ở đây chỉ ra rằng thang đo đang đo lường khái niệm dự kiến của nó. Nói một cách dễ hiểu hơn, ví dụ 1 nhân tố có tên là GIÁ CẢ có 4 câu hỏi, thì mỗi câu hỏi đó đều đo lường về khái niệm đang được đề cập, ở đây là khái niệm GIÁ CẢ của sản phẩm đó. Về mặt thực hành, có thể đánh giá chỉ số này ở gian đoạn EFA và CFA, ở giai đoạn EFA giá trị hội tụ thể hiện ở chỗ các hệ số tải của các thang đo thành phần của 1 nhân tố phải lớn hơn 0.5 khi cùng tải lên nhân tố đó. Ở giai đoạn CFA thể hiện ở chỗ chỉ số AVE phương sai trích >0.5

Discriminant validity

Discriminant validity là độ giá trị phân biệt :  Mức độ khác biệt giữa hai khái niệm, hai nhân tố.  Nếu hai nhân tố có mối tương quan thấp chứng tỏ ít có mối quan hệ giữa hai nhân tố đó, và điều đó chứng tỏ hai nhân tố này phân biệt với nhau, các khái niệm của hai nhân tố này không bị trùng lặp với nhau. Về mặt thực hành, có thể đánh giá chỉ số này ở gian đoạn EFA và CFA, ở giai đoạn EFA là các biến nên có hệ số tải lớn chỉ trên một nhân tố. Nếu "cross-loadings" tồn tại (biến tải trên nhiều yếu tố), thì tải chéo nên khác nhau nhiều hơn 0.3. Có nghĩa là trong cùng một dòng, hệ số tải lớn nhất và hệ số tải lớn nhì phải chênh nhau ít nhất là 0.3. Còn ở giai đoạn CFA  thì căn bậc hai của AVE của 1 nhân tố phải lớn hơn các tương quan giữa nhân tố đó và bất kì nhân tố nào khác

Nomological validity

Nomological validity là giá trị hiệu lực danh nghĩa: Đề cập đến mức độ mà thang đo tổng hợp đưa ra các dự đoán chính xác về các khái niệm khác trong một mô hình dựa trên lý thuyết. Nhà nghiên cứu phải xác định các mối quan hệ được hỗ trợ về mặt lý thuyết từ nghiên cứu trước hoặc các nguyên tắc được chấp nhận và sau đó đánh giá xem thang đo có các mối quan hệ tương ứng hay không. Cách kiểm tra giá trị này bằng cách chạy các kiểm định như hồi quy, SEM nhé.

Tóm lại, giá trị hội tụ xác nhận rằng thang đo có tương quan với các thước đo khác đã biết của khái niệm; giá trị phân biệt đảm bảo rằng thang đo đủ khác biệt với các khái niệm khác; và giá trị hiệu lực danh nghĩa xác định xem thang đo có chứng minh các mối quan hệ  đã tồn tại dựa trên lý thuyết hoặc nghiên cứu trước đó hay không.

Cách thực hiện các dạng chuyển đổi số liệu thông dụng: centering,chuẩn hóa standardization dữ liệu, ipsatizing

Khi phân tích số liệu, có trường hợp cần phải biến đổi lại số liệu theo một hoặc nhiều dạng nào đó, sau đây là một số dạng thông dụng như chuẩn hóa standardization, centering số liệu…

Centering

Centering là cách biến đổi dữ liệu trong đó mỗi quan sát được trừ cho 1 giá trị nhất định( ví dụ giá trị trung bình của biến đó). Việc này tương tự như chuẩn hóa 1 biến standardization ngoại trừ không có chia cho giá trị độ lệch chuẩn. Mục tiêu để tăng cường khả năng so sánh giữa các biến. Nghĩa là vẫn giữ sự biến thiên giá trị gốc, nhưng làm cho nó có quan hệ với giá trị trung bình của nó.
File excel minh họa về chuyển đổi số liệu ở đây: phantichspss.com/filefordownload/centering-standardization.xlsx
 

Số liệu gốc có 10 giá trị là: (40 46 64 30 100 11 46 49 74 78), từ đó ta tính được giá trị trung bình của 10 số này là 53.8, và độ lệch chuẩn là 25.7. Giá trị centering là cột tô vàng thứ 3, chính là bằng giá trị của biến đó trừ cho số trung bình, ví dụ dòng đầu tiên giá trị centering = 40-53.8 = -13.8

Chuẩn hóa standardization

Chuẩn hóa standardization có nhiều dạng, nhưng thông dụng nhất là chỉ số z score, cách làm là áp dụng cho 1 biến thôi nhé, ta lấy giá trị từng quan sát trừ cho giá trị trung bình của biến đó, sau đó chia cho độ lệch chuẩn của biến đó. Điều bất ngờ là bộ số liệu mới có phân phối chuẩn với trung bình là 0 và độ lệch chuẩn là 1. Giá trị z score của 1 quan sát lớn hơn hoặc bé hơn số 0 cứng tỏ quan sát khác với giá trị trung bình của biến đó có tính theo độ lệch chuẩn. Ví dụ z score là 0.8 chứng tỏ quan sát đó có giá trị 0.8 lần độ lệch chuẩn trên giá trị trung bình. Có nghĩa là quan sát gốc cách xa giá trị trung bình gốc 1 khoảng là =(0.8 * độ lệch chuẩn)

Ví dụ ở trên, giá trị chuẩn hóa standardization là cột tô vàng thứ 5, chính là bằng giá trị của biến đó trừ cho số trung bình, sau đó chia cho độ lệch chuẩn ví dụ dòng đầu tiên giá trị chuẩn hóa standardization = (40-53.8)/25.7 = -0.54.

Ta có thể dùng SPSS để tạo ra giá trị chuẩn hóa z-scrore. Bằng cách vào menu thống kê mô tả, và chọn vào Save standardized value as variables.

 

Sau đó nhấn OK, kết quả là số liệu đã có cột chuẩn hóa z-score tương tự như làm với excel ở trên

Ipsatizing

Một dạng khác của centering là ipsatizing, đây là một cách biến đổi dữ liệu cho một tập hợp biến quan sát có cùng thang đo. Nhưng giá trị được trừ ở đây thay vì là giá trị trung bình của 1 biến như centering, thì nó là giá trị trung bình của tất cả các biến của tập hợp biến đó theo từng quan sát. Nghĩa là mỗi dòng số liệu sẽ có 1 số mean là trung bình của các biến trong tập biến đó, và giá trị ipsatizing bằng với giá trị gốc trừ cho số trung bình vừa được tính.