Kiểm định giả thuyết và ý nghĩa thống kê

Ý nghĩa thống kê là một trong những thuật ngữ chúng ta thường nghe mà không thực sự hiểu rõ. Khi ai đó tuyên bố dữ liệu chứng minh quan điểm của họ, chúng ta gật đầu và chấp nhận, vì chúng ta mặc định rằng các nhà thống kê đã thực hiện các phép toán phức tạp mang lại kết quả không thể nghi ngờ. Trên thực tế, ý nghĩa thống kê không phải là một khái niệm phức tạp đòi hỏi nhiều năm nghiên cứu để nắm vững, mà là một ý tưởng đơn giản mà mọi người có thể – và nên – hiểu. Giống như hầu hết các khái niệm thống kê khác, ý nghĩa thống kê được xây dựng dựa trên một vài ý tưởng đơn giản: kiểm định giả thuyết, phân phối chuẩn và giá trị p (p-value). Trong bài viết này, tôi sẽ trình bày ngắn gọn về tất cả các khái niệm này.

Ý tưởng đầu tiên chúng ta phải thảo luận là kiểm định giả thuyết (hypothesis testing), một kỹ thuật để kiểm tra một lý thuyết bằng cách sử dụng dữ liệu. “Giả thuyết” đề cập đến niềm tin ban đầu của nhà nghiên cứu về tình huống trước khi nghiên cứu. Lý thuyết ban đầu này được gọi là giả thuyết thay thế (alternative hypothesis) và điều ngược lại được gọi là giả thuyết rỗng hay giả thuyết vô hiệu (null hypothesis). Ví dụ

Giả thuyết thay thế: chiến lược đầu tư của tôi tạo ra tỷ suất lợi nhuận trung bình cao hơn việc mua và nắm giữ dài hạn một cổ phiếu.

Giả thuyết rỗng: chiến lược đầu tư của tôi không tạo ra tỷ suất lợi nhuận trung bình cao hơn việc mua và nắm giữ dài hạn một cổ phiếu.

Kiểm định giả thuyết là một trong những nền tảng của thống kê và được sử dụng để đánh giá kết quả của hầu hết các nghiên cứu. Những nghiên cứu này có thể là bất cứ điều gì từ một thử nghiệm y tế để đánh giá hiệu quả của thuốc đến một nghiên cứu quan sát đánh giá một kế hoạch tập thể dục. Điểm chung của tất cả các nghiên cứu là chúng đều quan tâm đến việc so sánh giữa hai nhóm hoặc giữa một nhóm với toàn bộ quần thể. Chẳng hạn trong lĩnh vực y tế, chúng ta có thể so sánh thời gian bình phục trung bình giữa các nhóm dùng hai loại thuốc khác nhau.

Các phép kiểm định giả thuyết cho phép chúng ta xác định giả thuyết nào, giả thuyết rỗng hay giả thuyết thay thế, được hỗ trợ tốt hơn bởi bằng chứng dữ liệu. Giả thuyết ta cần kiểm định là giả thuyết rỗng, nếu như phép kiểm định có thể bác bỏ giá thuyết rỗng, ta có thể kết luận giả thuyết thay thế có ý nghĩa thống kê, và ngược lại. Dưới đây là một số phép kiểm định thông dụng:

Kiểm định Z (Z-test)

Kiểm định Z là bất kỳ kiểm định thống kê nào mà phân phối của dữ liệu cần kiểm định theo giả thuyết rỗng gần giống với phân phối chuẩn. Kiểm định Z dựa trên kiểm tra giá trị trung bình của một phân phối mà ta đã xác định được phương sai của toàn bộ quần thể. Do đó, kiểm định Z sẽ thường được sử dụng nếu kích cỡ mẫu lớn hoặc đã xác định được phương sai của cả quần thể.

Kiểm định T (T-test)

Kiểm định T thường được sử dụng nếu phương sai của cả quần thể không xác định được và kích thước mẫu không lớn (n <30).

ANOVA (Analysis of Variance)

ANOVA là kiểm định để xác định kết quả thử nghiệm có ý nghĩa thống kê hay không. ANOVA một chiều (one way ANOVA) so sánh hai giá trị trung bình từ hai nhóm độc lập với chỉ một biến độc lập. ANOVA hai chiều là phần mở rộng của ANOVA một chiều sử dụng hai biến độc lập.

Kiểm định Chi-Square (Chi-Square test)

Kiểm định Chi-Square kiểm tra xem một mô hình gồm tập hợp các dữ liệu rời rạc (discrete data) có gần với phân phối chuẩn hay không. Chi-Square Test for Independence là kiểm định dùng để kiểm tra xem hai biến khác nhau có quan hệ nào không.

Để chấp nhận hay bác bỏ giả thuyết rỗng, ta sử dụng giá trị p (p-value)

Giá trị p (p-value): Khi p-value> α, chúng ta chấp nhận giả thuyết rỗng, còn nếu p-value ≤ α, chúng ta bác bỏ giả thuyết rỗng và chúng ta có thể kết luận rằng chúng ta có một kết quả có ý nghĩa thống kê.

Giá trị tới hạn (critical value), hay α: là giá trị được sử dụng để so sánh với giá trị p nhằm chấp nhận hay bác bỏ giả thuyệt. α phụ thuộc vào đặc trưng của loại phép kiểm định và mức ý độ chính xác của phép kiểm định. Giá trị tới hạn thường được sử dụng là α = 0.05