Thống kê mô tả: Thống kê tần số Frequency trong SPSS

NGÀY ĐĂNG: 02/01/2020 |DANH MỤC: Thống kê mô tả

Thống kê tần số (Frequency Statistics) trong SPSS là một phương pháp thống kê mô tả thường được dùng để: đếm số lần xuất hiện của từng giá trị trong một biến (tần số), tính phần trăm (Percentage), xem phân phối dữ liệu dạng bảng và biểu đồ (biểu đồ cột, biểu đồ hình tròn…).

1. Ý nghĩa, mục đích của thống kê tần số Frequency

1.1 Ý nghĩa

Thống kê tần số là một kỹ thuật thống kê mô tả cơ bản nhưng rất quan trọng. Nó thể hiện số lần xuất hiện của từng giá trị trong một biến – qua đó phản ánh cách dữ liệu phân bố trong tập quan sát. Trong SPSS, bảng tần số giúp người dùng nhanh chóng nhìn thấy sự phân bổ dữ liệu và sự phổ biến của các giá trị.

Ví dụ, nếu bạn khảo sát về giới tính và thấy 70 người trả lời là “Nam” và 30 người trả lời là “Nữ”, thì tần số và tỷ lệ phần trăm sẽ cho thấy cơ cấu giới tính của mẫu khảo sát một cách rõ ràng.

Thống kê tần số không chỉ mang ý nghĩa mô tả, mà còn là bước tiền đề để nhận diện bất thường trong dữ liệu (như sai lệch mã hóa, giá trị ngoại lệ), đồng thời cung cấp cái nhìn trực quan ban đầu về phân phối dữ liệu.

2. Mục đích

Thống kê tần số được sử dụng với nhiều mục tiêu trong nghiên cứu và phân tích dữ liệu, cụ thể như:

Mô tả phân phối dữ liệu: Cho biết mỗi giá trị của biến xuất hiện bao nhiêu lần, chiếm bao nhiêu phần trăm trong tổng số mẫu. Hữu ích với cả biến định tính (nominal), định danh (ordinal), và cả định lượng rời rạc nếu có ít giá trị.

– Phát hiện dữ liệu thiếu hoặc dữ liệu sai lệch: Cột “Missing” trong SPSS giúp xác định các trường hợp không có giá trị hoặc bị lỗi mã hóa. Qua bảng kết quả tần số, ta có thể nhận diện các giá trị bất thường (ví dụ: nếu có 1 người 150 tuổi trong dữ liệu về dân số).

– Hỗ trợ quá trình ra quyết định mã hóa và phân nhóm: Với biến định lượng có quá nhiều giá trị, thống kê tần số sẽ giúp nhận ra cần phải nhóm giá trị thành các khoảng (ví dụ: thu nhập, tuổi tác…).

– Làm cơ sở cho biểu đồ hóa dữ liệu: Từ tần số, SPSS có thể tạo ra biểu đồ cột, biểu đồ hình tròn, biểu đồ histogram… giúp trực quan hóa dữ liệu dễ hiểu và dễ trình bày hơn trong báo cáo.

– Hỗ trợ so sánh các nhóm giá trị: Thống kê tần số cho phép nhà nghiên cứu thấy được sự chênh lệch hoặc tương quan cơ bản giữa các nhóm giá trị trong biến (ví dụ: tỉ lệ sinh viên nam – nữ, tỉ lệ người sử dụng xe máy – ô tô…).

2. Thống kê tần số Frequency trong SPSS

2.1 Thực hành thống kê tần số trên SPSS

Chúng ta sẽ tiến hành thực hiện thống kê tần số (Frequency) trong SPSS đối với các biến liên quan đến thông tin cá nhân (như giới tính, độ tuổi, trình độ học vấn…) dựa trên một bộ dữ liệu ví dụ. Để thực hiện, bạn truy cập theo đường dẫn trên thanh menu: AnalyzeDescriptive StatisticsFrequencies…

thong ke tan so spss

Tại cửa sổ hộp thoại Frequencies, bạn hãy chọn các biến cần thực hiện thống kê tần số từ danh sách bên trái, sau đó đưa vào ô Variable(s) ở bên phải. SPSS cho phép bạn đưa nhiều biến cùng lúc để thống kê tần số trong một lần thực hiện. Trong ví dụ này, vì mục tiêu là phân tích toàn bộ các biến liên quan đến thông tin cá nhân, nên tác giả sẽ chọn và đưa tất cả các biến đó vào mục Variable(s) để thực hiện thống kê đồng thời.

thong ke tan so spss

thong ke tan so spss

Sau khi đã lựa chọn và đưa các biến cần thống kê tần số vào ô Variable(s), bạn sẽ thấy ở phía bên phải cửa sổ hộp thoại xuất hiện các tùy chọn: Statistics, Charts, FormatBootstrap. Đây là những công cụ mở rộng cho phép người dùng thực hiện các thống kê mô tả chuyên sâu hơn đối với dữ liệu đã chọn.

Trong đó, hai mục được sử dụng phổ biến và thường xuyên nhất là Statistics (thống kê mô tả) và Charts (biểu đồ). Bây giờ, chúng ta sẽ đi vào chi tiết tùy chọn Statistics để thiết lập các chỉ số mô tả cần hiển thị.

thong ke tan so spss

Trong hộp thoại Statistics, SPSS cung cấp nhiều lựa chọn để mô tả dữ liệu định lượng, bao gồm các chỉ số như:

  • Mean (Giá trị trung bình)

  • Median (Trung vị – giá trị ở giữa khi sắp xếp dữ liệu)

  • Mode (Giá trị xuất hiện nhiều nhất)

  • Sum (Tổng các giá trị)

  • MinimumMaximum (Giá trị nhỏ nhất và lớn nhất)

  • Standard Deviation (Độ lệch chuẩn – đo mức độ phân tán của dữ liệu)

Tùy vào mục đích phân tích, người dùng có thể tích chọn các chỉ số phù hợp để mô tả đặc điểm phân bố của dữ liệu. Sau khi lựa chọn xong, nhấn nút Continue để quay lại hộp thoại chính.

Tuy nhiên, trong trường hợp này – vì các biến được thống kê là những biến liên quan đến thông tin cá nhân (chủ yếu là biến định tính hoặc thứ bậc, ví dụ như giới tính, trình độ học vấn, tình trạng hôn nhân…) – nên tác giả không chọn bất kỳ tùy chọn nào trong mục Statistics, mà để mặc định và chỉ tập trung vào tần số xuất hiện và tỷ lệ phần trăm của từng giá trị.

Tiếp đến là tùy chọn Charts. Tùy chọn này cho phép SPSS xuất ra biểu đồ cho các biến đưa vào thống kê tần số.

thong ke tan so spss

Trong tùy chọn Charts của hộp thoại Frequencies, SPSS tích hợp ba loại biểu đồ cơ bản hỗ trợ trực quan hóa dữ liệu:

  • Bar charts (biểu đồ cột)

  • Pie charts (biểu đồ tròn)

  • Histograms (biểu đồ tần suất, phù hợp cho các biến định lượng liên tục)

Khi lựa chọn Bar charts hoặc Pie charts, mục Chart Values bên dưới sẽ được kích hoạt, cho phép người dùng chọn cách hiển thị dữ liệu theo tần số (Frequencies) hoặc tỷ lệ phần trăm (Percentages).

Tuy nhiên, trong phân tích này, tác giả sẽ giữ nguyên thiết lập mặc định là None – tức không tạo biểu đồ trực tiếp trong SPSS. Lý do là bởi với các biến thông tin cá nhân, vốn chủ yếu là các biến định tính (như giới tính, độ tuổi, trình độ học vấn…), hai loại biểu đồ được sử dụng phổ biến nhất là biểu đồ cộtbiểu đồ tròn. Đây cũng là hai dạng biểu đồ quen thuộc, thường được thực hành khi sử dụng phần mềm Excel trong bộ Microsoft Office.

Sau khi đã chọn dạng biểu đồ (tác giả không vẽ biểu đồ nên vẫn để tùy chọn mục này là None), các bạn nhấp vào nút Continue để quay lại giao diện ban đầu.

thong ke tan so spss

Tiếp tục nhấp vào OK, để xuất kết quả thống kê tần số ra Output.

thong ke tan so spss

2.2 Đọc kết quả thống kê tần số Frequency trong SPSS

Kết quả từ Output, các bạn sẽ thấy 2 dạng bảng là Statistics thống kê chung tất cả các đã biến đưa vào và bảng Frequency thống tần số riêng lẻ cho từng biến.

thong ke tan so spss

Trong bảng Statistics do SPSS tạo ra, bạn sẽ thấy hai dòng thông tin cơ bản là ValidMissing:

  • Valid thể hiện số lượng quan sát có dữ liệu hợp lệ, tức là số người đã trả lời cho câu hỏi tương ứng.

  • Missing phản ánh số lượng trường hợp bị thiếu dữ liệu, tức là số người không cung cấp câu trả lời cho câu hỏi đó.

Nếu trong bảng khảo sát bạn đã thiết kế sao cho tất cả các câu hỏi đều là bắt buộc (người tham gia không thể bỏ trống), nhưng khi thực hiện thống kê lại thấy một số biến có giá trị Missing khác 0, điều này có thể là dấu hiệu cho thấy dữ liệu đã bị bỏ sót trong quá trình nhập liệu. Khi gặp tình huống này, bạn cần quay lại kiểm tra phần Data View, rà soát lại toàn bộ các biến có liên quan để đảm bảo không có ô nào bị bỏ trống do nhập thiếu.

Việc phát hiện và xử lý kịp thời các trường hợp thiếu dữ liệu là rất quan trọng nhằm đảm bảo độ chính xác và tin cậy của kết quả phân tích.

Tiếp theo là bảng tần số của từng biến, mỗi biến đưa vào thực hiện thống kê tần số sẽ có một bảng riêng như ví dụ biến Độ tuổi dưới đây.

thong ke tan so spss

→ Trong tổng số 220 người tham gia trả lời phiếu khảo sát, có 37 người thuộc độ tuổi từ 18 đến 25 tuổi, 120 người thuộc độ tuổi từ 26 đến 35 tuổi, 52 người thuộc độ tuổi từ 36 đến 45 tuổi và có 11 người trên 45 tuổi.

Từ bảng thống kê, nhân viên trong công ty đa phần tập trung ở độ tuổi 26 đến 35 tuổi. Đây là độ tuổi lao động lý tưởng, có sự kết hợp giữa nhóm lao động trẻ giàu năng lượng cùng với nhóm lao động có khá nhiều kinh nghiệm làm việc.

Ý nghĩa các thông số của bảng:

  • Frequency: Tần số (Có 37 người thuộc nhóm Từ 18 – 25 tuổi; có 120 người thuộc nhóm Từ 26 – 35 tuổi,…).
  • Percent: Tỷ lệ phần trăm (Nhóm Từ 18 – 25 tuổi chiếm tỷ lệ 16.8%; nhóm Từ 26 – 35 tuổi chiếm tỷ lệ 54.5%,…).
  • Valid Percent: Tỷ lệ phần trăm chỉ tính trên các giá trị hợp lệ. Nếu không có Missing, giá trị cột Valid Percent sẽ bằng với giá trị cột Percent.
  • Cumulative Percent: Tỷ lệ phần trăm tích lũy chỉ tính trên các giá trị hợp lệ. Tỷ lệ phần trăm sẽ cộng dồn tới khi đủ 100% (Nhóm Từ 18 – 25 tuổi chiếm tỷ lệ 16.8%; nhóm Từ 18 – 25 tuổi và Từ 26 – 35 tuổi chiếm tổng tỷ lệ 71.4%,…).

Để hiểu rõ hơn và phân biệt được 2 cột PercentValid Percent, chúng ta cùng theo dõi ví dụ dưới đây. Tác giả đã bỏ trống một ô trong cột dữ liệu của biến Độ tuổi, thực hiện thống kê tần số, xuất hiện hàng Missing ở cuối bảng tần số.

 thong ke tan so spss

SPSS nhận diện đang có một ô của biến Độ tuổi không có dữ liệu, do vậy Missing sẽ mang giá trị là 1. Lúc này, số giá trị hợp lệ của biến Độ tuổi là 219 chứ không phải là 220.

  • Cột Percent tính vẫn có 220 giá trị được thống kê, Missing chiếm tần số là 1 tương ứng với tỷ lệ là 0.5% trong tổng 100% (220 giá trị).
  • Cột Valid Percent tính chỉ có 219 giá trị được thống kê, không tính Missing. Như vậy tổng số 219 giá trị sẽ được tính là 100% và tần số các nhóm tuổi sẽ được chia phần trăm lại theo tổng số giá trị 219.

Xem tiếp: Thống kê mô tả: Thống kê trung bình trong SPSS