Một số khái niệm xác suất thống kê cơ bản thường sử dụng trong phân tích dữ liệu (Phần 2)

Tiếp theo phần 1, trong bài viết này, tôi sẽ khái quát thêm một số khái niệm xác suất thống kê cơ bản thường sử dụng trong phân tích dữ liệu.

3. Quan hệ giữa các biến

Các thước đo thống kê dựa trên mối quan hệ giữa các biến là Tương quan (correlation) và Hiệp phương sai (covariance). Một số người thường nhầm lẫn tương quan với quan hệ nguyên nhân – kết quả. Là một nhà khoa học dữ liệu, bạn cần phân biệt được những điểm khác biệt giữa hai khái niệm này.

Tương quan (correlation)

Tương quan giữa hai biến thể hiện mối quan hệ giữa chúng, rằng khi một biến tăng lên thì nó sẽ tác động như thế nào đến biến kia. Khi chúng ta nói hai biến có tương quan thuận với nhau, điều đó có nghĩa là nếu một biến tăng thì biến kia cũng tăng theo. Khi giá trị tương quan giữa hai biến gần bằng 0 có nghĩa là không có nhiều mối quan hệ giữa chúng. Dưới đây là một số ví dụ về biểu đồ scatter plot với các mức độ tương quan khác nhau của 2 biến

Nguồn: https://www.mathsisfun.com/data/correlation.html

Quan hệ nguyên nhân – kết quả (causation)

Như đã đề cập ở trên, nhiều người nhầm lẫn giữa tương quan và quan hệ nhân quả, nghĩa là khi các biến ‘A’ và ‘B’ có tương quan cao, họ cho rằng A khiến B xảy ra, nhưng có thể không phải như vậy. Trên thực tế, sự tương quan không giải thích bất cứ điều gì liên quan đến nhân quả. Chẳng hạn, khi nhiệt độ không khí tăng, số người phải nhập viện tăng và doanh số bán kem cũng tăng lên. Vì vậy, ở đây doanh số bán kem và số người phải nhập viện có mối quan hệ tương quan thuận. Nhưng doanh số bán kem không trực tiếp góp phần làm gia tăng số người phải nhập viện, hoặc ngược lại. Ở đây, nhiệt độ không khí tăng mới là nguyên nhân của cả hai hiện tượng trên.

Vì vậy, đừng bao giờ đánh giá hai biến có quan hệ nhân quả chỉ vì chúng có sự tương quan với nhau.

4. Phân phối (distribution)

Là một nhà khoa học dữ liệu, bạn cần biết các phân phối (distribution) khác nhau vì nó sẽ giúp hiểu rõ hơn về tập dữ liệu và có thể chọn một mô hình phân tích dự báo thích hợp. Có nhiều dạng phân phối của dữ liệu, nhưng ít nhất bạn cần biết các dạng phân phối sau đây:

Nguồn: https://365datascience.com/tutorials/statistics-tutorials/different-distribution/

Phân phối chuẩn (normal distribution) – Phân phối chuẩn có nghĩa là hầu hết các quan sát tập trung gần giá trị trung bình và khi chúng ta di chuyển ra xa giá trị trung bình, số lượng quan sát giảm đi và phân phối là đối xứng, nghĩa là phần bên trái và bên phải của giá trị trung bình là tương tự nhau.

Phân phối đồng đều (uniform distribution) – Trong trường hợp phân phối đồng đều, xác suất xảy ra là như nhau đối với tất cả các lựa chọn. Chẳng hạn như khi ta gieo 1 con xúc xắc, xác suất ta có mỗi giá trị từ 1 đến 6 là như nhau.

Phân phối nhị thức (binomial distribution) – Là một phân phối tần suất của các kết quả có thể có từ một tập hợp hữu hạn. Ví dụ khi ta gieo hai con xúc xắc, các giá trị có thể nằm trong khoảng từ 2 đến 12 và mỗi giá trị này đều có một giá trị xác suất xảy ra. Biểu diễn các giá trị xác xuất này lên biểu đồ histogram, ta sẽ thấy được hình ảnh của một phân phối nhị thức.

5. Định lý giới hạn trung tâm (Central Limit Theorem)

Định lý Giới hạn Trung tâm là một khái niệm phổ biến trong thống kê, theo định lý này, khi ta lấy càng nhiều mẫu từ một quần thế, phân phối mẫu sẽ càng gần với phân phối chuẩn (normal distribution), với giả định rằng các mẫu đều có kích thước giống nhau.

Nói một cách khác, theo định lý giới hạn trung tâm, với kích thước mẫu đủ lớn từ một tổng thể có mức phương sai (variance) hữu hạn, giá trị trung bình của tất cả các mẫu từ cùng một tổng thể sẽ xấp xỉ bằng giá trị trung bình của tổng thể. Ngoài ra, tất cả các mẫu sẽ tuân theo một phân phối gần với phân phối chuẩn, với các phương sai xấp xỉ bằng phương sai của tổng thể chia cho kích thước của mỗi mẫu. Trong thực tế, kích thước mẫu bằng hoặc lớn hơn 30 được coi là đủ lớn để tuân theo định lý giới hạn trung tâm, có nghĩa là phân phối của mẫu được coi là gần với phân phối chuẩn.