Thống kê mô tả trong nghiên cứu cần báo cáo những đặc điểm giúp người đọc hiểu dữ liệu trước khi đọc phần kiểm định: cỡ mẫu, giá trị thiếu, phân bố biến, trung bình, độ lệch chuẩn, tần suất, tỷ lệ, giá trị nhỏ nhất và lớn nhất khi phù hợp. Mục tiêu không phải là làm bảng thật dài, mà là cho thấy mẫu nghiên cứu, biến đo lường và điều kiện phân tích có hợp lý hay không.
Thống kê mô tả trong nghiên cứu: cần báo cáo gì và vì sao
Bạn đã chạy xong SPSS, Excel, R hoặc Jamovi, nhưng nhìn bảng kết quả lại không biết nên đưa dòng nào vào bài: trung bình có cần không, độ lệch chuẩn có bắt buộc không, biến giới tính thì ghi kiểu gì, thang Likert 5 mức có được tính mean không, còn dữ liệu thiếu thì giấu đi hay báo cáo? Đây là chỗ rất nhiều sinh viên ở các trường đại học Việt Nam bị kẹt khi viết bài nghiên cứu định lượng, khóa luận hoặc luận văn thạc sĩ. Phần thống kê mô tả nhìn có vẻ “dễ” vì chưa kiểm định giả thuyết, nhưng nếu trình bày sai, người đọc sẽ nghi ngờ cả phần phân tích phía sau. Vấn đề thường không nằm ở việc bạn không biết bấm phần mềm, mà ở chỗ bạn chưa biết mỗi chỉ số trả lời câu hỏi nào.
Thống kê mô tả trong nghiên cứu cần báo cáo những đặc điểm giúp người đọc hiểu dữ liệu trước khi đọc phần kiểm định: cỡ mẫu, giá trị thiếu, phân bố biến, trung bình, độ lệch chuẩn, tần suất, tỷ lệ, giá trị nhỏ nhất và lớn nhất khi phù hợp. Mục tiêu không phải là làm bảng thật dài, mà là cho thấy mẫu nghiên cứu, biến đo lường và điều kiện phân tích có hợp lý hay không.
In this guide
- Thống kê mô tả trong nghiên cứu cần báo cáo những gì?
- Vì sao phần thống kê mô tả không chỉ là bảng số liệu?
- Cách trình bày thống kê mô tả theo loại biến như thế nào?
- Khi nào nên báo cáo trung bình và độ lệch chuẩn?
- Bảng thống kê mô tả nên được thiết kế ra sao?
- Làm thế nào để viết đoạn diễn giải sau bảng thống kê mô tả?
- Sinh viên thường mắc lỗi gì khi viết thống kê mô tả?
- Trước khi phân tích sâu hơn, cần kiểm tra thống kê mô tả như thế nào?
Thống kê mô tả trong nghiên cứu cần báo cáo những gì?
Thống kê mô tả trong nghiên cứu thường cần báo cáo ba nhóm thông tin: đặc điểm mẫu, đặc điểm biến và chất lượng dữ liệu. Với biến định lượng, bạn thường dùng trung bình, độ lệch chuẩn, trung vị, giá trị nhỏ nhất và lớn nhất; với biến phân loại, bạn thường dùng tần suất và tỷ lệ phần trăm. Bạn cũng nên báo cáo cỡ mẫu hợp lệ và dữ liệu thiếu nếu chúng ảnh hưởng đến phân tích.
Ba nhóm thông tin người đọc cần thấy
Thống kê mô tả là phần tóm tắt dữ liệu bằng số hoặc bảng để người đọc hiểu dữ liệu “trông như thế nào” trước khi bạn đưa ra kiểm định, mô hình hồi quy hoặc phân tích sâu hơn. Nó trả lời các câu hỏi nền: có bao nhiêu người tham gia, họ thuộc nhóm nào, biến chính có xu hướng cao hay thấp, mức độ phân tán ra sao, có giá trị bất thường hoặc thiếu dữ liệu không.
Trong bài nghiên cứu của sinh viên, phần này thường nằm ở chương kết quả hoặc ngay đầu phần phân tích dữ liệu. Nếu bạn đang viết khóa luận ngành quản trị kinh doanh về ý định mua hàng trên TikTok Shop, thống kê mô tả sẽ cho biết mẫu có bao nhiêu sinh viên, tỷ lệ nam/nữ, độ tuổi, tần suất mua hàng, và điểm trung bình của các thang đo như “niềm tin”, “giá trị cảm nhận”, “ý định mua”.
Những chỉ số thường dùng
Cỡ mẫu hợp lệ là số quan sát thực sự được dùng cho từng phân tích. Nếu bạn thu 320 phiếu khảo sát nhưng chỉ có 287 phiếu hợp lệ, bảng và đoạn viết phải phản ánh con số 287, không phải con số ban đầu.
Tần suất là số trường hợp thuộc một nhóm, ví dụ 168 người học năm ba. Tỷ lệ phần trăm cho biết nhóm đó chiếm bao nhiêu trong mẫu, ví dụ 58.5%. Hai chỉ số này phù hợp với biến phân loại như giới tính, năm học, chuyên ngành, nhóm tuổi, loại bệnh, hoặc nhóm can thiệp.
Trung bình là giá trị đại diện cho xu hướng trung tâm của biến định lượng. Độ lệch chuẩn cho biết mức độ phân tán quanh trung bình: độ lệch chuẩn nhỏ nghĩa là câu trả lời khá tập trung, độ lệch chuẩn lớn nghĩa là dữ liệu phân tán hơn. Trung vị là giá trị ở giữa khi sắp xếp dữ liệu; nó hữu ích khi dữ liệu lệch hoặc có ngoại lệ.
Ví dụ theo ngành học
Trong tâm lý học xã hội, một bài nghiên cứu về căng thẳng học tập có thể báo cáo điểm trung bình căng thẳng, độ lệch chuẩn, điểm thấp nhất và cao nhất của thang PSS trong nhóm sinh viên năm nhất. Nếu độ lệch chuẩn lớn, người đọc biết rằng mức căng thẳng trong mẫu không đồng đều.
Trong điều dưỡng, một nghiên cứu về tuân thủ dùng thuốc ở người bệnh tăng huyết áp sau xuất viện có thể mô tả tuổi trung bình, tỷ lệ người sống một mình, số loại thuốc trung bình mỗi ngày và tỷ lệ người quên thuốc ít nhất một lần trong tuần. Những số liệu này giúp người đọc đánh giá bối cảnh chăm sóc sau ra viện.
Trong giáo dục, một đề tài về hiệu quả học trực tuyến có thể báo cáo điểm tự đánh giá năng lực số của sinh viên, thời lượng học trực tuyến mỗi tuần, và tỷ lệ sinh viên có đường truyền Internet không ổn định. Các mô tả này làm rõ vì sao kết quả kiểm định sau đó có thể khác giữa các nhóm.
Vì sao phần thống kê mô tả không chỉ là bảng số liệu?
Phần thống kê mô tả không chỉ để “điền bảng” cho đủ chương kết quả; nó giúp người đọc đánh giá mẫu, biến và độ tin cậy ban đầu của phân tích. Nếu mô tả dữ liệu sơ sài, người đọc không biết kết quả kiểm định của bạn dựa trên dữ liệu nào. Nếu mô tả quá nhiều, phần kết quả trở thành danh sách số liệu khó đọc.
Chức năng kiểm tra logic của nghiên cứu
Thống kê mô tả cho thấy dữ liệu có phù hợp với câu hỏi nghiên cứu hay không. Nếu câu hỏi nghiên cứu nói về sinh viên đại học tại Hà Nội nhưng mẫu thực tế có 80% người trả lời đang đi làm toàn thời gian và không còn là sinh viên, mô tả mẫu sẽ làm lộ vấn đề phạm vi. Nếu đề tài nói về người bệnh cao tuổi nhưng tuổi trung bình chỉ là 42, người đọc sẽ đặt câu hỏi ngay.
Phần này cũng giúp bạn tự kiểm tra biến trước khi chạy kiểm định. Ví dụ, nếu biến “sự hài lòng” được đo bằng thang 1–5 nhưng giá trị lớn nhất trong bảng là 7, khả năng cao bạn nhập sai dữ liệu, mã hóa sai hoặc gộp biến chưa đúng. Một bảng mô tả tốt không chỉ phục vụ người chấm; nó còn bảo vệ bạn khỏi lỗi kỹ thuật.
Nếu bạn vẫn đang xác định biến độc lập, biến phụ thuộc và chỉ báo đo lường, có thể xem thêm Sơ đồ biến và chỉ báo đo lường trong nghiên cứu định lượng trước khi lập bảng mô tả.
Khác biệt giữa mô tả và suy luận
Thống kê mô tả chỉ nói về dữ liệu bạn có. Thống kê suy luận dùng dữ liệu mẫu để ước lượng, so sánh hoặc kiểm định giả thuyết về tổng thể. Câu “điểm hài lòng trung bình là 3.82” là mô tả; câu “nhóm học trực tuyến có mức hài lòng thấp hơn nhóm học trực tiếp với p < .05” là suy luận.
Nhiều sinh viên viết phần mô tả như thể đã chứng minh quan hệ nhân quả. Ví dụ: “Độ lệch chuẩn cao chứng minh sinh viên bị ảnh hưởng mạnh bởi áp lực học tập.” Câu này đi quá xa. Độ lệch chuẩn chỉ cho thấy mức độ phân tán của điểm áp lực; nó không chứng minh nguyên nhân.
| Phiên bản yếu | Phiên bản tốt hơn |
|---|---|
| “Kết quả cho thấy sinh viên rất hài lòng vì mean = 3.61.” | “Điểm hài lòng trung bình là 3.61 trên thang 1–5, cho thấy mức đánh giá nghiêng về phía tích cực nhưng chưa ở mức rất cao.” |
| “Nam nhiều hơn nữ nên kết quả chắc chắn thiên lệch.” | “Mẫu có 62.4% người trả lời là nam; sự mất cân đối này cần được cân nhắc khi diễn giải kết quả.” |
| “Độ lệch chuẩn 1.20 chứng minh dữ liệu không tốt.” | “Độ lệch chuẩn 1.20 cho thấy câu trả lời phân tán tương đối rộng; cần xem thêm phân bố hoặc biểu đồ để đánh giá.” |
| “Tuổi trung bình là 21 nên mẫu hợp lệ.” | “Tuổi trung bình là 21.3, phù hợp với nhóm sinh viên đại học mà đề tài hướng đến.” |
Vai trò trong câu chuyện kết quả
Phần mô tả tốt tạo nền cho phần phân tích tiếp theo. Nếu sau đó bạn so sánh điểm lo âu giữa sinh viên năm nhất và năm cuối, người đọc cần biết mỗi nhóm có bao nhiêu người, điểm trung bình ban đầu ra sao và mức phân tán có quá khác biệt không. Nếu bạn chạy hồi quy, người đọc cần biết các biến có khoảng giá trị hợp lý và có đủ biến thiên để phân tích hay không.
Đừng biến bảng mô tả thành nơi chứa mọi số liệu phần mềm xuất ra. Người đọc cần những thông tin giúp họ hiểu dữ liệu, không cần mọi dòng mặc định như “standard error of skewness” nếu bạn không dùng chúng trong lập luận.
Cách trình bày thống kê mô tả theo loại biến như thế nào?
Cách trình bày thống kê mô tả phụ thuộc vào loại biến: biến phân loại dùng tần suất và tỷ lệ, biến định lượng dùng trung bình và độ lệch chuẩn hoặc trung vị và khoảng tứ phân vị, còn thang Likert cần xử lý theo cách phù hợp với thiết kế thang đo. Trước khi lập bảng, bạn phải biết biến nào là biến nhân khẩu học, biến mô tả bối cảnh, biến độc lập, biến phụ thuộc và biến kiểm soát.
Biến phân loại: tần suất và tỷ lệ
Với biến phân loại, câu hỏi chính là “có bao nhiêu trường hợp thuộc từng nhóm?”. Ví dụ: giới tính, năm học, chuyên ngành, loại hình trường, nhóm bệnh, khoa điều trị, hình thức học, nhóm can thiệp. Bạn nên báo cáo số lượng và tỷ lệ phần trăm cùng nhau vì chỉ một trong hai thường chưa đủ.
Ví dụ trong nghiên cứu quản trị về hành vi mua hàng, bảng mẫu có thể ghi: nữ 182 người (63.4%), nam 101 người (35.2%), khác hoặc không muốn trả lời 4 người (1.4%). Nếu chỉ ghi tỷ lệ mà không ghi số lượng, người đọc không biết mẫu thực tế lớn hay nhỏ. Nếu chỉ ghi số lượng, họ phải tự tính tỷ lệ.
Với biến có nhiều nhóm, nên gộp nhóm hợp lý nếu có quá ít trường hợp, nhưng phải giải thích. Ví dụ, nhóm tuổi “trên 35” chỉ có 3 người trong mẫu sinh viên, bạn có thể cân nhắc gộp vào nhóm “từ 25 trở lên” nếu điều đó hợp lý với câu hỏi nghiên cứu.
Biến định lượng: xu hướng trung tâm và phân tán
Với biến định lượng, người đọc cần biết giá trị điển hình và mức độ phân tán. Bộ chỉ số thường gặp gồm trung bình, độ lệch chuẩn, giá trị nhỏ nhất và lớn nhất. Nếu dữ liệu lệch mạnh, có ngoại lệ rõ rệt hoặc biến là thời gian, thu nhập, số lần vi phạm, số lần nhập viện, trung vị và khoảng tứ phân vị có thể phù hợp hơn.
Ví dụ trong nghiên cứu điều dưỡng về số lần tái khám sau xuất viện, biến “số lần tái khám trong 3 tháng” có thể lệch vì đa số bệnh nhân tái khám 1–2 lần, nhưng một số người tái khám 8–10 lần. Khi đó trung bình có thể bị kéo lên; trung vị giúp mô tả trường hợp điển hình rõ hơn.
Nếu bạn chưa chắc biến của mình nên đi với kiểm định nào sau phần mô tả, Sơ đồ trực quan để chọn phép kiểm định thống kê giúp nối loại biến với phép phân tích phù hợp.
Thang Likert và điểm tổng hợp
Thang Likert là nguồn nhầm lẫn phổ biến. Một câu hỏi đơn lẻ như “Tôi cảm thấy áp lực khi học trực tuyến” với mức 1–5 về mặt kỹ thuật là biến thứ bậc. Tuy vậy, trong nhiều bài nghiên cứu sinh viên, khi nhiều mục hỏi được gộp thành một thang đo có độ tin cậy chấp nhận được, điểm trung bình của thang thường được trình bày như biến liên tục.
Cách viết cần rõ ràng: bạn đang mô tả từng mục hỏi hay điểm trung bình của cả thang đo? Nếu bảng ghi “Áp lực học tập: M = 3.74, SD = 0.81”, người đọc cần biết đó là điểm trung bình của bao nhiêu mục hỏi, thang từ 1 đến 5 hay từ 1 đến 7, và điểm cao nghĩa là áp lực cao hay thấp.
Khi nào nên báo cáo trung bình và độ lệch chuẩn?
Bạn nên báo cáo trung bình và độ lệch chuẩn khi biến có dạng định lượng hoặc điểm thang đo tổng hợp được xử lý như biến liên tục, và khi phân bố không quá lệch so với mục đích phân tích. Nếu biến là nhóm danh mục như giới tính, khoa học, lớp học hoặc loại bệnh, trung bình không có ý nghĩa. Nếu dữ liệu lệch mạnh, hãy cân nhắc thêm trung vị, khoảng tứ phân vị hoặc biểu đồ phân bố.
Khi trung bình có ý nghĩa
Trung bình có ý nghĩa khi các giá trị nằm trên một thang đo có khoảng cách tương đối đều. Ví dụ: tuổi, số giờ học mỗi tuần, điểm kiểm tra, điểm trung bình thang đo hài lòng, điểm lo âu, thu nhập theo tháng nếu không lệch quá mạnh. Trong các trường hợp này, trung bình cho biết mức điển hình của nhóm.
Trong tâm lý học, nếu bạn dùng thang đo tự trọng gồm 10 mục, mỗi mục từ 1 đến 4, điểm trung bình thang đo có thể được mô tả bằng M và SD. Câu viết hợp lý là: “Điểm tự trọng trung bình của mẫu là 2.91 trên thang 1–4, với độ lệch chuẩn 0.46.” Câu này cho người đọc biết cả mức trung tâm và độ phân tán.
Trong giáo dục, nếu nghiên cứu so sánh mức độ sẵn sàng học trực tuyến, bạn có thể báo cáo điểm trung bình sẵn sàng học trực tuyến theo từng nhóm năm học. Nhưng nếu biến là “năm nhất, năm hai, năm ba, năm tư”, đừng lấy trung bình năm học rồi diễn giải như một đại lượng liên tục có ý nghĩa rõ ràng.
Khi độ lệch chuẩn cần được đọc cùng bối cảnh
Báo cáo trung bình và độ lệch chuẩn không có nghĩa là chỉ đặt hai con số cạnh nhau. Độ lệch chuẩn chỉ có ý nghĩa khi được đọc cùng thang đo và nội dung biến. SD = 0.70 trên thang 1–5 có thể cho thấy câu trả lời khá tập trung; SD = 0.70 trên thang 0–100 lại là mức phân tán rất nhỏ.
Sinh viên thường hỏi “độ lệch chuẩn bao nhiêu là tốt?”. Không có ngưỡng cố định cho mọi đề tài. Bạn cần xem thang đo, mục đích phân tích, phân bố dữ liệu và kỳ vọng lý thuyết. Nếu thang đo 1–5 mà SD của nhiều biến đều trên 1.4, có thể dữ liệu rất phân tán hoặc các nhóm trong mẫu khác nhau đáng kể. Nếu SD gần 0, có thể biến thiếu biến thiên, khiến kiểm định khó phát hiện khác biệt.
Khi nên dùng trung vị thay vì chỉ dùng trung bình
Trung vị hữu ích khi dữ liệu lệch. Ví dụ trong nghiên cứu y tế công cộng về thời gian chờ khám, một số bệnh nhân chờ rất lâu do ca cấp cứu chen ngang. Trung bình thời gian chờ có thể là 58 phút, nhưng trung vị là 35 phút. Nếu chỉ báo cáo trung bình, người đọc có thể nghĩ hầu hết bệnh nhân chờ gần một giờ, trong khi thực tế một vài giá trị rất lớn đã kéo trung bình lên.
Một quy trình đơn giản để quyết định có cần thêm trung vị:
- Xác định loại biến: phân loại, thứ bậc, định lượng hay điểm thang đo.
- Xem giá trị nhỏ nhất, lớn nhất và biểu đồ phân bố nếu có.
- Kiểm tra xem có giá trị ngoại lệ làm trung bình bị kéo lệch không.
- Nếu dữ liệu lệch rõ, báo cáo trung vị và khoảng tứ phân vị bên cạnh hoặc thay cho trung bình.
- Diễn giải bằng ngôn ngữ phù hợp: “phần lớn tập trung ở mức…” thay vì khẳng định quá mức.
Bảng thống kê mô tả nên được thiết kế ra sao?
Bảng thống kê mô tả nên đủ ngắn để đọc được, đủ rõ để người đọc biết biến nào được mô tả, đơn vị đo là gì và cỡ mẫu hợp lệ ra sao. Một bảng tốt thường có tên biến, n hợp lệ, trung bình, độ lệch chuẩn, giá trị nhỏ nhất, giá trị lớn nhất hoặc tần suất và tỷ lệ tùy loại biến. Không nên sao chép nguyên bảng phần mềm nếu bảng đó chứa cột không phục vụ lập luận.
Cấu trúc bảng cho biến định lượng
Với các biến định lượng chính, bảng có thể gồm các cột: biến, n, trung bình, độ lệch chuẩn, nhỏ nhất, lớn nhất. Nếu bài dùng thang Likert, bạn nên ghi rõ thang điểm ở tiêu đề bảng hoặc ghi chú dưới bảng, ví dụ “các biến được đo trên thang 1–5; điểm cao hơn thể hiện mức đồng ý cao hơn”.
Một bảng thống kê mô tả cho nghiên cứu về ý định nghỉ việc của nhân viên có thể gồm các biến: căng thẳng công việc, hỗ trợ từ cấp trên, gắn kết tổ chức, ý định nghỉ việc. Nếu mỗi biến là điểm trung bình của nhiều mục hỏi, bảng nên dùng tên khái niệm thay vì liệt kê từng câu hỏi, trừ khi mục tiêu của bạn là phân tích từng mục.
| Biến | n hợp lệ | Trung bình | Độ lệch chuẩn | Nhỏ nhất | Lớn nhất |
|---|---|---|---|---|---|
| Căng thẳng học tập | 286 | 3.72 | 0.83 | 1.40 | 5.00 |
| Hỗ trợ từ giảng viên | 286 | 3.18 | 0.91 | 1.00 | 5.00 |
| Tự hiệu quả học tập | 284 | 3.56 | 0.68 | 1.80 | 5.00 |
| Ý định tiếp tục học trực tuyến | 285 | 3.04 | 1.02 | 1.00 | 5.00 |
Cấu trúc bảng cho biến phân loại
Với biến phân loại, bảng nên dùng số lượng và tỷ lệ phần trăm. Nếu bảng quá dài, bạn có thể tách đặc điểm mẫu thành một bảng riêng và biến nghiên cứu chính thành bảng khác. Điều này đặc biệt hữu ích trong bài khóa luận hoặc luận văn thạc sĩ có nhiều biến nhân khẩu học.
Ví dụ bảng đặc điểm mẫu trong nghiên cứu giáo dục có thể gồm giới tính, năm học, ngành học, kinh nghiệm học trực tuyến, loại thiết bị thường dùng. Những biến này không nhất thiết là biến chính trong mô hình, nhưng giúp người đọc hình dung mẫu nghiên cứu.
Cần tránh dùng quá nhiều chữ viết tắt. Nếu bắt buộc dùng M và SD, hãy giải thích trong ghi chú bảng: “M = trung bình; SD = độ lệch chuẩn.” Trong bài tiếng Việt, bạn có thể dùng “TB” và “ĐLC”, nhưng nên thống nhất từ đầu đến cuối.
Bảng trước và sau khi chỉnh
| Bảng yếu | Bảng tốt hơn |
|---|---|
| Dán nguyên bảng SPSS có 12 cột, gồm cả “Std. Error”, “Skewness”, “Kurtosis” dù không diễn giải. | Chọn các cột cần dùng: n, trung bình, độ lệch chuẩn, nhỏ nhất, lớn nhất; đưa kiểm tra lệch vào phụ lục nếu cần. |
| Tên biến là “Q1”, “Q2”, “Q3”, “VAR00012”. | Đổi thành tên có nghĩa: “Hỗ trợ từ giảng viên”, “Áp lực bài tập”, “Ý định tiếp tục học”. |
| Không ghi thang đo, người đọc không biết 3.8 là cao hay thấp. | Ghi rõ “thang 1–5, điểm cao hơn thể hiện mức đồng ý cao hơn”. |
| Trộn tuổi, giới tính, điểm hài lòng và kết quả kiểm định trong cùng một bảng. | Tách bảng đặc điểm mẫu, bảng mô tả biến chính và bảng kiểm định. |
Nếu bạn đang xây dựng bố cục toàn bài, Sơ đồ phân cấp cho cấu trúc bài viết học thuật có thể giúp đặt phần mô tả dữ liệu đúng vị trí trong chương phương pháp hoặc chương kết quả.
Làm thế nào để viết đoạn diễn giải sau bảng thống kê mô tả?
Đoạn diễn giải sau bảng nên nêu những điểm đáng chú ý nhất, không lặp lại từng con số trong bảng. Bạn cần nói mẫu có đặc điểm gì, biến chính có xu hướng ra sao, mức phân tán có đáng lưu ý không và thông tin đó liên quan thế nào đến câu hỏi nghiên cứu. Đoạn viết tốt thường ngắn hơn bảng nhưng giúp người đọc hiểu vì sao bảng cần xuất hiện.
Không đọc lại bảng theo kiểu máy móc
Một lỗi phổ biến là viết: “Biến A có trung bình 3.45, biến B có trung bình 3.67, biến C có trung bình 3.12…” Cách này chỉ lặp lại bảng và không thêm ý nghĩa. Người đọc có thể tự nhìn số; nhiệm vụ của bạn là chọn mẫu hình đáng chú ý.
Phiên bản tốt hơn sẽ nhóm thông tin: “Trong các biến về trải nghiệm học trực tuyến, hỗ trợ từ giảng viên có điểm trung bình thấp nhất (M = 3.18), trong khi tự hiệu quả học tập cao hơn (M = 3.56). Điều này cho thấy người học nhìn chung đánh giá năng lực tự học của bản thân tích cực hơn so với mức hỗ trợ nhận được.”
Đoạn này không cần khẳng định quan hệ nhân quả. Nó chỉ mô tả xu hướng và chuẩn bị cho phần phân tích sau.
Gắn số liệu với thang đo và câu hỏi nghiên cứu
Cách trình bày thống kê mô tả tốt luôn nói rõ ý nghĩa của thang đo. Điểm 3.80 có thể cao nếu thang 1–5, nhưng bình thường nếu thang 1–7. Điểm 12 có thể thấp hoặc cao tùy thang đo có tổng điểm tối đa là 20 hay 60.
Ví dụ trong nghiên cứu về lo âu thi cử, bạn có thể viết: “Điểm lo âu thi cử trung bình là 3.89 trên thang 1–5, cho thấy mức lo âu tương đối cao trong mẫu. Tuy nhiên, độ lệch chuẩn 0.96 cho thấy mức lo âu khác nhau đáng kể giữa các sinh viên, nên các phân tích tiếp theo cần xem xét vai trò của năm học và khối ngành.”
Trong nghiên cứu điều dưỡng, đoạn mô tả có thể là: “Số thuốc sử dụng mỗi ngày có trung vị là 4, với khoảng tứ phân vị từ 3 đến 6. Phân bố này cho thấy phần lớn người bệnh dùng nhiều thuốc cùng lúc, phù hợp với bối cảnh nghiên cứu về tuân thủ điều trị sau xuất viện.”
Công thức viết đoạn diễn giải
Bạn có thể dùng một quy trình ngắn để viết sau khi có bảng:
- Xác định 2–3 con số đáng nói nhất, không chọn mọi số.
- Nêu hướng chung của mẫu hoặc biến chính.
- Đặt con số vào thang đo, đơn vị hoặc bối cảnh.
- Nhắc đến độ phân tán nếu nó ảnh hưởng đến cách hiểu.
- Kết nối nhẹ với phân tích tiếp theo, nhưng chưa kết luận giả thuyết.
Ví dụ yếu:
Yếu: “Bảng 2 cho thấy điểm trung bình của áp lực học tập là 3.72, hỗ trợ giảng viên là 3.18, tự hiệu quả là 3.56 và ý định học trực tuyến là 3.04. Như vậy các biến đều tốt.”
Ví dụ tốt hơn:
Tốt hơn: “Các biến được đo trên thang 1–5. Áp lực học tập có điểm trung bình cao nhất (M = 3.72, SD = 0.83), trong khi ý định tiếp tục học trực tuyến thấp hơn (M = 3.04, SD = 1.02). Mức phân tán của ý định học trực tuyến tương đối lớn, cho thấy sinh viên trong mẫu có đánh giá không đồng nhất về việc tiếp tục hình thức học này.”
Nếu phần phương pháp của bạn chưa mô tả rõ dữ liệu được thu và xử lý thế nào, hãy tham khảo Quy trình xây dựng chương phương pháp nghiên cứu để tránh phần kết quả bị “rơi” khỏi thiết kế nghiên cứu.
Sinh viên thường mắc lỗi gì khi viết thống kê mô tả?
Sinh viên thường mắc lỗi khi chọn sai chỉ số cho loại biến, diễn giải quá mức, bỏ qua dữ liệu thiếu, dán nguyên bảng phần mềm hoặc không nói rõ thang đo. Những lỗi này làm phần kết quả nhìn có vẻ nhiều số nhưng thiếu giá trị học thuật. Sửa lỗi thường bắt đầu từ việc quay lại câu hỏi nghiên cứu, loại biến và đơn vị đo.
Các lỗi thường gặp và cách sửa
-
Tính trung bình cho biến danh mục
Ví dụ sinh viên viết: “Giới tính có mean = 1.42, cho thấy mẫu nghiêng về nữ.” Cách này sai vì mã 1 và 2 chỉ là nhãn, không phải đại lượng có khoảng cách đo lường. Hãy viết: “Mẫu gồm 166 nữ (58.0%) và 120 nam (42.0%).” -
Báo cáo trung bình nhưng không ghi thang đo
Ví dụ: “Mức hài lòng trung bình là 3.76.” Người đọc không biết 3.76 trên thang 1–5, 1–7 hay 0–10. Hãy viết: “Mức hài lòng trung bình là 3.76 trên thang 1–5, trong đó điểm cao hơn thể hiện mức hài lòng cao hơn.” -
Diễn giải mô tả như kiểm định giả thuyết
Ví dụ: “Nhóm học trực tuyến có mean cao hơn nên học trực tuyến hiệu quả hơn.” Nếu chưa kiểm định khác biệt hoặc chưa kiểm soát biến liên quan, câu này quá mạnh. Hãy viết: “Nhóm học trực tuyến có điểm trung bình cao hơn trong mẫu; sự khác biệt này cần được kiểm tra bằng phép kiểm định phù hợp.” -
Bỏ qua dữ liệu thiếu
Ví dụ: “N = 300” ở mọi bảng, dù một số câu hỏi chỉ có 267 câu trả lời hợp lệ. Điều này làm người đọc nghi ngờ tính chính xác của phân tích. Hãy báo cáo n hợp lệ theo biến hoặc n sau khi làm sạch dữ liệu. -
Giữ tên biến thô từ phần mềm
Ví dụ bảng ghi “Q12_3”, “Q12_4”, “SUM_ATT2” mà không giải thích. Người chấm không nên phải đoán biến đó là gì. Hãy đổi tên thành khái niệm đọc được, như “Niềm tin vào nhà bán hàng” hoặc “Thái độ đối với học trực tuyến”.
Lỗi do chưa nối phần mô tả với thiết kế nghiên cứu
Một số lỗi xuất phát từ bước trước đó: câu hỏi nghiên cứu chưa rõ, biến chưa được định nghĩa, thang đo chưa ổn, hoặc mẫu không khớp phạm vi. Nếu bạn chưa biết biến nào là biến độc lập, biến phụ thuộc, biến kiểm soát, phần thống kê mô tả sẽ trở thành danh sách rời rạc.
Ví dụ trong đề tài kinh doanh “Các yếu tố ảnh hưởng đến ý định mua mỹ phẩm nội địa của sinh viên”, nếu bạn đưa vào bảng mô tả cả 45 câu hỏi riêng lẻ nhưng không gộp theo thang đo, người đọc sẽ không thấy mô hình nghiên cứu. Bảng nên phục vụ cấu trúc khái niệm: thái độ, chuẩn chủ quan, nhận thức về giá, niềm tin thương hiệu, ý định mua.
Nếu câu hỏi nghiên cứu và giả thuyết chưa ăn khớp với biến, Sơ đồ liên kết giữa mục tiêu nghiên cứu và giả thuyết sẽ giúp bạn kiểm tra lại trước khi viết kết quả.
Trước khi phân tích sâu hơn, cần kiểm tra thống kê mô tả như thế nào?
Trước khi chạy kiểm định hoặc viết phần kết quả chính, bạn nên dùng thống kê mô tả để kiểm tra cỡ mẫu, giá trị thiếu, phạm vi giá trị, phân bố và sự hợp lý của biến. Đây là bước rà soát dữ liệu, không chỉ là bước trình bày. Nếu phát hiện lỗi ở đây, sửa sớm sẽ tốt hơn nhiều so với phát hiện sau khi đã viết xong chương kết quả.
Kiểm tra tính hợp lệ của dữ liệu
Hãy bắt đầu bằng những câu hỏi rất thực tế: số phiếu hợp lệ là bao nhiêu, có biến nào thiếu quá nhiều không, giá trị nhỏ nhất và lớn nhất có nằm trong thang đo không, có mã lạ nào xuất hiện không. Với thang 1–5, giá trị 0 hoặc 6 là dấu hiệu cần kiểm tra. Với tuổi sinh viên đại học, giá trị 3 hoặc 99 có thể là lỗi nhập liệu hoặc mã hóa.
Trong nghiên cứu sức khỏe, lỗi đơn vị đo rất dễ xảy ra. Nếu biến chiều cao có giá trị trung bình 165 nhưng một vài dòng ghi 1.65, bạn đã trộn cm và m. Nếu không phát hiện ở thống kê mô tả, các phân tích sau có thể bị sai lệch.
Kiểm tra sự phù hợp với giả thuyết
Thống kê mô tả cũng cho biết biến có đủ biến thiên để phân tích không. Nếu 98% người trả lời chọn “đồng ý hoàn toàn” cho một biến, biến đó gần như không phân biệt được người tham gia. Khi đó, hồi quy hoặc tương quan có thể không cho kết quả rõ, không hẳn vì giả thuyết sai mà vì thang đo không phân tách được dữ liệu.
Với nghiên cứu giáo dục, nếu hầu hết sinh viên trong mẫu đều có điểm chuyên cần trên 95%, bạn khó phân tích quan hệ giữa chuyên cần và kết quả học tập. Mô tả dữ liệu giúp bạn nhận ra giới hạn này và viết phần hạn chế nghiên cứu trung thực hơn.
Before you move on: checklist thống kê mô tả
- Bạn đã phân loại từng biến là phân loại, thứ bậc, định lượng hay điểm thang đo tổng hợp.
- Bạn đã báo cáo n hợp lệ, không chỉ số phiếu thu về ban đầu.
- Biến phân loại được trình bày bằng tần suất và tỷ lệ phần trăm.
- Biến định lượng phù hợp được trình bày bằng trung bình và độ lệch chuẩn.
- Biến lệch mạnh được cân nhắc thêm trung vị và khoảng tứ phân vị.
- Bảng thống kê mô tả có tên biến đọc được, không dùng mã thô từ phần mềm.
- Thang đo, đơn vị đo và chiều ý nghĩa của điểm số đã được ghi rõ.
- Giá trị nhỏ nhất và lớn nhất đã được kiểm tra để phát hiện lỗi nhập liệu.
- Dữ liệu thiếu đã được báo cáo hoặc xử lý nhất quán.
- Đoạn diễn giải sau bảng không lặp lại mọi con số mà chọn điểm đáng chú ý.
- Bạn không dùng thống kê mô tả để khẳng định quan hệ nhân quả hoặc kết luận giả thuyết.
- Các bảng mô tả khớp với câu hỏi nghiên cứu, biến và phương pháp phân tích phía sau.
Liên kết nội bộ được đề xuất
(Build system metadata — do not remove this section)
Câu hỏi thường gặp
Cần báo cáo thống kê mô tả gì trong bài nghiên cứu định lượng?
Bạn cần báo cáo cỡ mẫu hợp lệ, đặc điểm mẫu, thống kê cho biến chính và thông tin về dữ liệu thiếu nếu có. Biến phân loại nên có tần suất và tỷ lệ; biến định lượng nên có trung bình, độ lệch chuẩn, nhỏ nhất và lớn nhất khi phù hợp. Nếu dữ liệu lệch, hãy cân nhắc trung vị và khoảng tứ phân vị.
Bảng thống kê mô tả nên dài bao nhiêu?
Bảng nên đủ dài để bao quát biến liên quan trực tiếp đến câu hỏi nghiên cứu, nhưng không nên chứa mọi biến thô trong bộ dữ liệu. Với bài cấp cử nhân hoặc thạc sĩ, thường nên tách bảng đặc điểm mẫu và bảng mô tả biến chính nếu có nhiều biến. Nếu bảng kéo dài hơn một trang, hãy xem lại biến nào thật sự cần đưa vào phần chính và biến nào có thể đưa vào phụ lục.
Khác nhau giữa trung bình và trung vị là gì?
Trung bình là tổng các giá trị chia cho số quan sát, còn trung vị là giá trị nằm giữa khi sắp xếp dữ liệu. Trung bình nhạy với ngoại lệ, trong khi trung vị ổn định hơn khi dữ liệu lệch. Với thu nhập, thời gian chờ, số lần tái khám hoặc số lần vi phạm, trung vị thường giúp người đọc hiểu trường hợp điển hình tốt hơn.
Bậc cử nhân có cần báo cáo độ lệch chuẩn không?
Có, nếu bạn trình bày biến định lượng hoặc điểm thang đo tổng hợp bằng trung bình. Độ lệch chuẩn giúp người đọc biết dữ liệu tập trung hay phân tán quanh trung bình. Nếu chỉ ghi trung bình, phần mô tả thường chưa đủ để đánh giá chất lượng dữ liệu.
Có nên đưa toàn bộ bảng SPSS vào khóa luận hoặc luận văn thạc sĩ không?
Không nên đưa nguyên bảng SPSS nếu bảng có nhiều cột không phục vụ lập luận. Bạn nên biên tập lại bảng theo chuẩn đọc được: tên biến rõ, cột cần thiết, thang đo và ghi chú đầy đủ. Bảng xuất từ phần mềm có thể dùng để kiểm tra hoặc lưu phụ lục, nhưng bảng trong bài chính cần phục vụ người đọc.
Thang Likert 5 mức có được báo cáo trung bình và độ lệch chuẩn không?
Có thể, nếu bạn đang dùng điểm tổng hợp của nhiều mục hỏi và cách xử lý này phù hợp với thiết kế nghiên cứu của bạn. Với một mục Likert đơn lẻ, tần suất theo từng mức trả lời hoặc trung vị có thể hợp lý hơn. Dù chọn cách nào, hãy ghi rõ thang điểm và ý nghĩa của điểm cao.



