Nội dung text Chương 3 - Phi TS.docx
1 CHƯƠNG 3: KIỂM ĐỊNH PHI THAM SỐ 3.1. Sự cần thiết của kiểm định phi tham số Kiểm định phi tham số (Nonparametric Tests) được sử dụng trong những trường hợp dữ liệu không có phân phối chuẩn, hoặc cho các mẫu nhỏ có ít đối tượng. Kiểm định phi tham số cũng được dùng cho các dữ liệu định danh (nominal), dữ liệu thứ bậc (ordinal) hoặc dữ liệu khoảng cách (interval) không có phân phối chuẩn. Nhược điểm của kiểm định phi tham số là khả năng tìm ra được sự sai biệt kém, không mạnh như các phép kiểm có tham số (T student, phân tích phương sai…) 3.2. Kiểm định dấu hạng Wilcoxon Nếu dữ liệu không tuân theo phân phối chuẩn hoặc dữ liệu là dữ liệu định tính, nên không thể thực hiện được bài toán bằng trung bình: Thay vào đó, chúng ta sẽ sử dụng bài toán cho trung vị, thông qua bài toán tương tự với bài toán kiểm định trung vị hai phía: Hoặc kiểm định trung vị một phía: Hoặc 3.2.1. Kiểm định dấu hạng Wilcoxon trên một tổng thể với cỡ mẫu nhỏ Bước 1: Xây dựng cặp giả thuyết Bước 2: Xếp hạng các giá trị chênh lệch theo nguyên tắc Quan sát Chênh lệch Trị tuyệt đối chênh lệch Xếp hạng Hạng dương Hạng âm
2 Xếp hạng các giá trị theo thứ tự từ nhỏ đến lớn, sao cho không được xếp hạng, nhỏ nhất được xếp hạng 1. Nếu có hai hoặc nhiều hơn các giá trị bằng nhau, thì hạng chung của các quan sát này bằng trung bình hạng của các quan sát. Những giá trị sẽ được đưa vào hạng và ngược lại, những giá trị thì sẽ được đưa vào hạng . Bước 3: Tính giá trị kiểm định Wilcoxon như sau: o Bài toán kiểm định có giá trị kiểm định o Bài toán kiểm định có giá trị kiểm định o Bài toán kiểm định có giá trị kiểm định Bước 4: So sánh và kết luận o Bài toán kiểm định với giá trị tra bảng dấu hạng Wilcoxon , chính là miền . Bác bỏ nếu giá trị kiểm định không thuộc miền . o Bài toán kiểm định với giá trị tra bảng dấu hạng Wilcoxon , chính là miền . Bác bỏ nếu giá trị kiểm định không thuộc miền . o Bài toán kiểm định với giá trị tra bảng dấu hạng Wilcoxon , chính là miền . Bác bỏ nếu giá trị kiểm định không thuộc miền . o Trong đó là bậc tự do, tương ứng là số lượng các giá trị có chênh lệch khác 0, tức là . Ví dụ 3.1. Một mẫu sinh viên gồm 10 cựu sinh viên của trường, với đơn vị tính là $. sinh_vien12345678910 muc_luong364385270350290400520340389410 Với mức ý nghĩa 5%, thông tin cho rằng thu nhập của cựu sinh viên của trường vượt quá $350 là đúng hay không? Giải: Các thống kê mô tả của dữ liệu
3 Dựa vào kết quả thống kê mô tả của Stata, chúng ta nhận thấy dữ liệu lệch phải , và hơn nhọn hơn so với phân phối chuẩn . Do đó, dữ liệu không tuân theo phân phối chuẩn. Các đồ thị tương ứng biểu thị dữ liệu 250300350400450500 muc_luong Đồ thị tần suất thấy dữ liệu không tuân theo phân phối chuẩn.
4 0.000.250.500.751.00 Empirical P[i] = i/(N+1) Đồ thị QQ-plot thấy rằng dữ liệu không tuân theo phân phối chuẩn. Bước 1: Bài toán kiểm định: Bài toán kiểm định 1 phía với trung vị mẫu là 374.5 nên bài toán kiểm định là: Bước 2: Xếp hạng các giá trị chênh lệch: sinh_vie n muc_luon g Chênh lệch Trị tuyệt đối Xếp hạng Hạng dương Hạng âm 1 364 14 14 2 2 2 385 35 35 3 3 3 270 -80 80 8 8 4 350 0 0 - - - 5 290 -60 60 6.5 6.5 6 400 50 50 5 5 7 520 170 170 9 9 8 340 -10 10 1 1 9 389 39 39 4 4 10 410 60 60 6.5 6.5 Tổng 29.5 15.5