Cách xử lý làm sạch số liệu SPSS

Mục lục

Bài này nhóm MBA giới thiệu đến bạn một số bước cơ bản để làm sạch số liệu SPSS sau khi thu thập về. Làm sạch số liệu là một bước quan trọng để đảm bảo tính chính xác và đáng tin cậy của kết quả phân tích của bạn. Quy trình này có thể tốn thời gian, nhưng đó là bước quan trọng để đảm bảo dữ liệu của bạn sẵn sàng cho phân tích tiếp theo.

Các cách thu thập số liệu thông dụng

Hiện nay để lấy số liệu khảo sát, rất ít bạn sử dụng phiếu khảo sát giấy vì nó hơi bất tiện. Công cụ sử dụng miễn phí bây giờ là google, bạn có thể vào link https://docs.google.com/forms để tạo bảng khảo sát cho riêng mình, hoặc công cụ có phí có nhiều tính năng hơn ví dụ như Survey Monkey tại https://www.surveymonkey.com/

Tuy nhiên cho dù xài công cụ miễn phí hay có phí thì không thể nào công cụ đó đánh giá được tính hợp lý của số liệu thu thập về, mà đòi hỏi người làm cần phải chủ động xem về tính hợp lý của số liệu để làm sạch nó trước khi đưa vào SPSS để chạy.

Làm sạch số liệu khảo sát là quá trình quan trọng trong phân tích dữ liệu để đảm bảo rằng dữ liệu bạn sử dụng là chính xác, đáng tin cậy và thích hợp cho mục tiêu nghiên cứu của bạn.

Dưới đây là các bước cơ bản để làm sạch số liệu khảo sát

-Thu thập dữ liệu: Thu thập toàn bộ số liệu bao gồm phiếu khảo sát giấy, hoặc dữ liệu từ bảng khảo sát online. Đảm bảo bạn có toàn bộ dữ liệu cần thiết để phân tích.
-Kiểm tra tính toàn vẹn của số liệu: Kiểm tra xem bạn đã thu thập đủ thông tin từ tất cả các mẫu khảo sát và không có thông tin nào bị thiếu hoặc mất mát. Nghĩa là bảng câu hỏi bạn ví dụ có 30 câu, và bạn mong muốn người được khảo sát đánh không sót câu nào, thì suy ra những bảng thiếu bạn phải xóa đi nhé. Nếu bạn không muốn xóa thì có cách để xử lý như là: có thể là việc điền giá trị trung bình, giá trị trung vị hoặc sử dụng phương pháp khác.
-Kiểm tra tính nhất quán: Đảm bảo rằng các biến trong số liệu của bạn được định dạng và mã hóa đúng cách.
-Kiểm tra lỗi chính tả và đánh giá dữ liệu: Kiểm tra dữ liệu để xác định xem có lỗi chính tả, dấu cách không cần thiết hoặc các vấn đề khác về định dạng.
-Mã hóa lại các biến: Nếu cần, mã hóa lại các biến như biến phân loại để tạo dữ liệu số hóa. Ví dụ biến GIỚI TÍNH, thay vì bạn để là Nam/Nữ thì bạn nên mã hóa thành 1/2 để sau này đưa vào chương trình chạy định lượng sẽ hợp lý hơn, ví dụ phân tích ANOVA, T-TEST chỉ chấp nhận dạng dữ liệu đã mã hóa, chứ bạn đưa Nam/Nữ vào SPSS sẽ không nhận diện được nhé.
Kiểm tra sự trùng lặp: Kiểm tra xem có sự trùng lặp trong dữ liệu, liệu xem có người nào đánh giá bảng khảo sát 2 lần hay không?