Chỉ số skewness và kurtosis là gì và dùng để làm gì?

Bài này sẽ nói về hai phần, phần đầu là về khái niệm skewness và kurtosis, phần sau là về hai cách kiểm tra phân phối chuẩn thông dụng nhất

Trước tiên ta nói về hình dạng của phân phối. Hình dạng của bất kỳ phân bố nào có thể được mô tả bằng hai thước đo: kurtosis và skewness. Như các bạn thấy phân phối chuẩn đồng đều như hình bên dưới, hai chỉ số này nó sẽ đo mức độ "méo mó, lệch phải lệch trái, lệch lên lệch xuống.." so với hình dạng của phân phối chuẩn.

Chỉ số kurtosis là gì?

Giá trị kurtosis: đo độ đỉnh hoặc độ phẳng của phân phối khi so sánh với phân phối chuẩn. Một giá trị dương cho biết phân phối tương đối đạt đỉnh và giá trị âm cho biết phân phối tương đối bằng phẳng. Các phân phối cao hơn hoặc nhọn hơn so với phân phối chuẩn được gọi là leptokurtic, trong khi phân phối phẳng hơn được gọi là platykurtic.

Chỉ số skewness là gì?

Trong khi kurtosis đề cập đến chiều cao của phân phối, skewness được sử dụng để mô tả sự cân bằng của phân phối; nghĩa là, nó không cân đối và bị lệch sang một bên (phải hoặc trái) hay nó có trọng tâm và đối xứng với cùng một hình dạng ở cả hai bên? Nếu một phân phối không cân bằng, nó sẽ bị lệch(skew). Độ lệch dương biểu thị sự phân bố dịch chuyển sang trái, trong khi độ lệch âm phản ánh sự dịch chuyển sang phải

Giá trị skewness và kurtosis của một phân phối chuẩn luôn bằng 0. Vì thế giá trị trên hoặc dưới 0 chứng tỏ gần khác với phân phối chuẩn.

Vậy làm thế nào để kiểm tra phân phối chuẩn:

Các nhà nghiên cứu có một số cách tiếp cận khác nhau để đánh giá phân phối chuẩn, nhưng chúng chủ yếu có thể được phân loại dưới dạng đồ thị hoặc thống kê. Các phương pháp đồ thị được phát triển để cho phép đánh giá tính chuẩn hóa của phân phối mà không cần tính toán phức tạp. Chúng cung cấp cho nhà nghiên cứu góc nhìn "chuyên sâu" hơn về các đặc điểm phân bố so với một giá trị định lượng đơn lẻ, nhưng chúng cũng bị hạn chế trong việc phân biệt cụ thể vì các diễn giải bằng hình ảnh kém chính xác hơn so với các phép đo thống kê.

Phân tích đồ thị để xác định phân phối chuẩn

Kiểm tra chẩn đoán đơn giản nhất về tính chuẩn là kiểm tra trực quan biểu đồ so sánh các giá trị dữ liệu quan sát được với phân phối xấp xỉ với phân phối chuẩn. Mặc dù hấp dẫn vì tính đơn giản của nó, phương pháp này có vấn đề đối với các mẫu có kích cỡ nhỏ, trong đó việc xây dựng biểu đồ có thể làm sai lệch hình ảnh mô tả dẫn đến phân tích là vô ích. Một cách tiếp cận đáng tin cậy hơn là biểu đồ normal probability plot, so sánh phân phối tích lũy các giá trị dữ liệu thực tế với phân phối tích lũy của một phân phối chuẩn. Phân phối chuẩn tạo thành một đường chéo thẳng và các giá trị dữ liệu được vẽ trên đồ thị được so sánh với đường chéo. Nếu phân phối là bình thường, đường biểu diễn phân phối dữ liệu thực tế sẽ theo sát đường chéo.

Kiểm định thống kê để xác định phân phối chuẩn

Một quy tắc kiểm định đơn giản phân phối chuẩn dựa vào giá trị skewness và kurtosis. Giá trị thống kê z của skewness được tính như sau:

z=skewness/(sqrt(6/N)) , với N là kích cỡ mẫu.

Giá trị thống kê z của kurtosis được tính như sau:

z=kurtosis/(sqrt(24/N)) , với N là kích cỡ mẫu.

Bất kì giá trị z nào ở trên vượt ngưỡng critical value thì phân phối được xác định là không chuẩn. giá trị ngưỡng critical value của phân phối z thì dựa vào mức ý nghĩa thống kê chúng ta đề ra. Giá trị thông dụng là +-2.58( cho mức ý nghĩa 10%) và +-1.96(cho mức ý nghĩa 5%).

Hai phương pháp kiểm định khác cho phân phối chuẩn là kiểm định Shapiro-wilks và kiểm định Kolmogorov-Smirnov sửa đổi. Mỗi kiểm định đều cho ra mức ý nghĩa thống kê để so với phân phối chuẩn. Lưu ý là kích cỡ mẫu nhỏ hơn 30 thì các kiểm định này cho ra số không chính xác nhé.

Do đó tốt nhất chung ta kết hợp 2 phương pháp đồ thị và kiểm định thống kê để xác định 1 phân phối có theo phân phối chuẩn không nhé.