Dữ liệu sau khi đã được nhập chưa thể đưa ngay vào xử lý, phân tích bởi có thể còn nhiều lỗi cần phải được loại bỏ do:
- Chất lượng của việc khảo sát: người trả lời hiểu sai câu hỏi dẫn đến dữ liệu thu thập sai; người được khảo sát trả lời qua loa cho xong, không hợp tác để hoàn thành tốt cuộc phỏng vấn; người được khảo sát vì nhiều lý do hoàn thành không đầy đủ phiếu khảo sát; người thực hiện khảo sát ghi chép nhầm,…
- Lỗi nhập liệu: trong quá trình nhập liệu kết quả từ phiếu khảo sát vào phần mềm, người nhập dữ liệu nhập thiếu, thừa hoặc sai dữ liệu.
Các lỗi phát sinh có thể đến từ các lý do chủ quan hoặc lý do khách quan. Nếu có quá nhiều lỗi trong dữ liệu, các kết quả thống kê, phân tích sẽ không còn chính xác, thậm chí một số trường hợp lỗi dữ liệu khiến cho toàn bộ dữ liệu khảo sát bị hủy bỏ.
Dưới đây là 2 phương pháp làm sạch dữ liệu phổ biến được các nhà nghiên cứu sử dụng để nhận diện các dữ liệu sai lệch, outlier.
1. Dùng bảng tần số
Lập bảng tần số cho tất cả các biến, đọc soát để tìm các giá trị lạ như ví dụ ở mục 3.1. Sau đó, tại các biến có dữ liệu lỗi, sử dụng lệnh tìm kiếm/thay thế Find and Replace để tìm giá trị lỗi và chỉnh sửa. Cách lập bảng tần số các bạn sẽ làm quen ở chương 4, còn cách thức dùng lệnh Find tìm giá trị lỗi tác giả sẽ trình bày ngay dưới đây.
Ở giao diện Data View, nhấp chuột vào tên biến đầu cột để chọn cột biến có giá trị bị lỗi. Tác giả sẽ thực hành ví dụ với biến Giới tính:
Có sự bất hợp lý ở đây khi biến Giới tính chỉ có 2 giá trị 1, 2 tương ứng với Nam, Nữ nhưng bảng thống kê tần số xuất hiện giá trị 3, 11, 12 và 1 giá trị Missing, cần rà soát lại các dữ liệu lỗi này. Sau khi chọn cột biến Giới tính, vào Edit > Find hoặc nhấn tổ hợp phím Ctrl + F để mở hộp thoại Find and Replace.
Nhập giá trị 11 vào ô Find, nhấp nút Find Next thì vị trí của ô chứa giá trị lỗi 11 sẽ đổi sang màu vàng và các vùng khác sẽ có màu trắng mặc định.
Dò ngược lại số thứ tự hàng, giá trị lỗi 11 vừa tìm được nằm ở hàng số 14, kiểm tra lại phiếu khảo sát số 14 và sửa giá trị lỗi. Nếu có nhiều giá trị 11, các bạn tiếp tục nhấn Find Next để tìm hết các lỗi và chỉnh sửa.
2. Dùng bảng kết hợp
Sử dụng bảng kết hợp 2, 3 biến rồi dựa vào các quan hệ hợp lý để tìm ra lỗi. Cách lập bảng kết hợp các bạn sẽ làm quen ở chương 4. Ví dụ như khi lập bảng kết hợp biến tuổi với học vấn, bạn phát hiện có trường hợp tuổi chỉ có 15 tuổi nhưng học vấn lại là sau đại học, tức là hoặc dữ liệu biến tuổi hoặc biến học vấn đã bị nhập sai. Để tìm và sửa lỗi, chúng ta sẽ sử dụng lệnh Select Case trong SPSS. Tác giả sẽ thực hành ví dụ bảng kết hợp giữa biến Độ tuổi và biến Học vấn:
Nhận thấy rằng đang có sự bất hợp lý ở đây khi độ tuổi dưới 18 lại có trình độ học vấn trên đại học, cần kiểm tra lại dữ liệu lỗi này bằng lệnh Select Cases. Vào Data > Select Cases… Hộp thoại Select Cases xuất hiện.
Tích chọn vào mục If condition is sastified, sau đó nhấp vào nút If… ngay bên dưới để mở hộp thoại điều kiện lọc.
Nhập hàm vào khung điều kiện: DoTuoi=1 & HocVan=3 để lọc ra các trường hợp có độ tuổi dưới 18 và học vấn trên đại học. Trong đó DoTuoi, HocVan là tên biến được mã hóa trong file dữ liệu. Mức giá trị 1 của độ tuổi là “Dưới 18 tuổi”, mức giá trị 3 của học vấn là “Trên đại học”. Sau khi đã nhập hàm xong, tiếp tục nhấp vào nút Continue, sau đó chọn OK.
Khi lệnh này được thực hiện, SPSS tạo ra một biến mới có tên filter_$, biến này nhận giá trị 0 tại tất cả các tình huống không thỏa mãn và nhận giá trị 1 tại các tình huống thỏa điều kiện của lệnh If, tức là tình huống có sai sót. Lưu ý, biến filter_$ chỉ là biến tạm, khi bạn thực hiện một lệnh Select Cases mới, biến này sẽ mất đi. Bên cạnh đó, các ô thứ tự hàng sẽ được gạch chéo tại các hàng không thỏa điều kiện (giá trị filter_$ là 0), các ô không có dấu gạch chéo nghĩa là hàng này thỏa điều kiện lọc (giá trị filter_$ là 1).
Sau khi đã lọc ra được các hàng theo điều kiện, một vấn đề khác phát sinh đó là nếu số lượng hàng quá lớn thì việc tìm được hàng chứa giá trị lỗi (dòng có giá trị 1 ở cột filter_$ và không bị gạch chéo ô thứ tự hàng) sẽ rất mất thời gian và công sức. Lúc này, bạn cần sử dụng đến sự trợ giúp của lệnh Sort Case bằng cách vào Data > Sort Cases…
Hộp thoại Sort Cases xuất hiện, đưa biến bạn muốn sắp xếp thứ tự vào khung Sort by. Cụ thể trong ví dụ này là biến filter_$. Chọn hình thức sắp xếp tăng dần (Ascending) hoặc giảm dần (Descending). Nếu sắp xếp giảm dần thì những hàng mang giá trị 1 sẽ ở trên cùng và ngược lại. Tiếp tục nhấp vào OK.
Sau khi đã sắp xếp thứ tự giá trị của cột biến filter_$, tiến hành kiểm tra các hàng chứa giá trị nằm trong điều kiện lọc để tìm dữ liệu bị lỗi và chỉnh sửa.
Cũng cần chú ý rằng, bất cứ khi nào đã thực hiện thành công lệnh Select Cases, bạn phải trở lại giao diện cửa số Select Cases và trả lại trạng thái dữ liệu bình thường All Case, nếu không các lệnh thống kê sau đó sẽ chỉ được thực hiện với những trường hợp được lọc.
Trên đây là 2 phương pháp làm sạch dữ liệu bằng SPSS được sử dụng nhiều hiện nay, ngoài ra còn nhiều cách thức khác các bạn có thể tìm kiếm thêm trên Internet. Tuy nhiên, nguyên tắc để có một bộ dữ liệu tốt vẫn là “phòng bệnh hơn chữa bệnh”, để hạn chế cao nhất các lỗi dữ liệu phát sinh về sau, chúng ta cần làm tốt các biện pháp ngăn ngừa lỗi sau:
- Thiết kế bảng khảo sát rõ ràng, tham khảo qua sự đánh giá của các chuyên gia, giảng viên hướng dẫn.
- Thiết kế bảng khảo sát nên sử dụng “câu hỏi gài” và “câu hỏi đảo ngược đáp án” để loại bỏ các bảng khảo sát kém chất lượng, người được khảo sát trả lời qua loa. Các bạn có thể tham khảo 2 dạng câu hỏi này tại bài viết Câu hỏi gài trong xây dựng bảng câu hỏi khảo sát.
- Các câu hỏi khảo sát cần phải dễ hiểu để người trả lời có thể đưa ra đánh giá, câu trả lời chính xác vấn đề được hỏi.
- Thực hiện khảo sát sơ bộ để đưa ra các điều chỉnh cần thiết trước khi đi vào khảo sát chính thức quy mô lớn.
- Lựa chọn người trả lời một cách chọn lọc, các đáp viên không có thái độ hỗ trợ hoặc không nằm trong nhóm đối tượng khảo sát sẽ đưa ra những đánh giá không phù hợp, làm sai lệch kết quả so với thực tế.
- Bảng khảo sát sau khi thu về, cần phải được rà soát lỗi, chỉnh sửa trước khi tiến hành nhập liệu.