Nội dung text Chương 2 - ANOVA.docx
1 Chương 2. Phân tích phương sai ANOVA 2.1. Khái niệm về phân tích phương sai ANOVA Phân tích phương sai ANOVA (Analysis of Variance) hay còn được gọi là kiểm định ANOVA, là một kỹ thuật thống kê tham số được sử dụng để phân tích sự khác nhau giữa giá trị trung bình của các biến phụ thuộc với nhau. Kiểm định ANOVA bao gồm 3 phương pháp bao gồm: ANOVA một chiều (One-way ANOVA), ANOVA hai chiều (Two-way ANOVA) và ANOVA đa biến (MANOVA). One-way ANOVA là một loại thử nghiệm thống kê nhằm đánh giá tác động của một biến độc lập duy nhất lên một biến phản hồi duy nhất. Nó giúp xác định xem tất cả các mẫu có giống nhau hay không. Tóm lại, One-way ANOVA được sử dụng để xác định liệu có bất kỳ sự khác biệt có ý nghĩa nào giữa các đối tượng của ba hay nhiều nhóm độc lập với nhau hay không. Two-way ANOVA có thể được coi là một phần mở rộng của phân tích One-way ANOVA. Vì đối với One-way ANOVA bạn chỉ có thể nghiên cứu ảnh hưởng của một biến độc lập với một biến phụ thuộc, Two-way ANOVA sẽ có 2 biến độc lập. Phân tích Two-way ANOVA được sử dụng để quan sát sự tương tác giữa hai yếu tố và kiểm tra sự ảnh hưởng của 2 yếu tố đó lên biến phụ thuộc cùng một lúc. Một kiểm định MANOVA có thể có hai hoặc nhiều biến độc lập, và tương tự với biến phụ thuộc. 2.2. Phân tích phương sai ANOVA một yếu tố Giả sử chúng ta cần phân tích xem có hay không sự phụ thuộc giữa một biến định tính (biến nguyên nhân) và một biến định lượng (biến kết quả) dưa trên nhóm giá trị của biến định tính. Nếu biến định tính chỉ có hai giá trị khác nhau thì sự phân tích này có thể đơn giản là so sánh trung bình của biến kết quả giữa hai nhóm giá trị của biến nguyên nhân xem có bằng nhau hay không, từ đó rút ra kết luận là có hay không sự phụ thuộc. Tuy nhiên, nếu số nhóm của các tính chất của biến định tính là từ 3 trở lên thì việc so sánh các nhóm giá trị trung bình sẽ trở nên phức tạp hơn nhiều. Ví dụ như khi muốn xem kết quả học tập của sinh viên có ảnh hưởng bởi giới tính hay không, ta chỉ cần so sánh trung bình học tập của hai nhóm nam hoặc nữ. Từ đây, xem xét có hay không sự khác biệt của hai nhóm dựa vào sự khác biệt trung bình trên hai tổng thể. Tuy nhiên, nếu muốn tìm hiểu xem kết quả học tập có chịu ảnh hưởng của khu vực sinh sống hay không, giả sử khu vực sinh sống được chia làm ba nhóm: sống với gia đình, sống ở ký túc xá, ở trọ bên ngoài. Khi đó, việc so sánh giữa các nhóm được chuyển thành 3 bài toán so sánh giữa hai nhóm và như vậy viêc tính toán sẽ không còn dễ dàng nữa.
2 Xuất phát từ lý do này, phân tích ANOVA một yếu tố sẽ là một sự lựa chọn phù hợp khi cần so sánh trung bình của nhóm tính chất của biến nguyên nhân mà vẫn dựa trên các giả định cơ bản như so sánh trung bình trên hai tổng thể. 2.2.1. Các bước tính toán của bài toán ANOVA một yếu tố Các bước cụ thể của bài toán ANOVA được thực hiện như sau: Giả sử chúng ta cần so sánh giá tri trung bình của tổng thể , căp giả thiết cần kiểm định có dạng như sau: Ở đây, là giá trị trung bình của tổng thể thứ Việc kiểm định căp giả thuyết trên đòi hỏi một số giả thuyết cơ bản: ● Các tổng thể có phân phối chuẩn ● Phương sai của các tổng thể bằng nhau ● Các mẫu được chọn ngẫu nhiên và độc lâp với nhau. Nếu giả thiết xảy ra, chúng ta hoàn toàn có thể sử dụng kết luận này để ước lượng phương sai của tổng thể thông qua công thức Ngược lại, nếu đối thiết xảy ra (bác bỏ ) thì chúng ta không thể sử dụng phương sai mẫu để ước lượng phương sai của tổng thể trong trường hơp này, do phương sai mẫu quá lớn so với phương sai của tổng thể. Lưu ý: nếu bác bỏ , chúng ta không thể kết luận tất cả khác nhau, mà chỉ có thể kết luận có ít nhất hai giá trị trung bình của tổng thể là và khác nhau. Để chỉ ra chi tiết cặp giá trị và nào khác nhau, chúng ta cần các kiểm định tiếp theo là kiểm định sâu ANOVA. Do việc khảo sát để tìm được các giá trị thường khó xảy ra trong thực tế nên người ta thường dựa vào các mẫu ngẫu nhiên ứng với các tổng thể này để tìm các giá trị . Điều này được tóm tắt trong bảng sau: Các mẫu Các quan sát Mẫu 1 Mẫu 2 Mẫu 1 2 Cỡ mẫu Giá trị trung bình Độ lệch chuẩn Từ mẫu này, ta xây dựng các bước kiểm định cặp giả thuyết trên như sau: ● Bước 1: Đặt giả thuyết
3 ● Bước 2: o Tính trung bình mẫu của từng nhóm o Tính trung bình chung của tất cả các quan sát, có thể dựa vào trung bình chung của nhóm theo công thức: ● Bước 3: o Tính SSW là tổng bình phương các chênh lệch trong nội bộ nhóm o Tính SSG là tổng bình phương các chênh lệch giữa các nhóm o Tính SST là tổng bình phương các chênh lệch Trong đó: là số nhóm khảo sát là cỡ mẫu của nhóm thứ là là quan sát thứ của nhóm là trung bình của mẫu thứ là trung bình chung của toàn bộ các phần tử trong nhóm. Ý tưởng của bước 3 là đo lường sự biến động ở dạng bình phương của tất cả các giá trị quan sát SST trên các mẫu riêng biệt ứng với từng tổng thể so với giá trị trung bình chung . Sự biến động của SST được chia tách thành hai phần chính: một phần do yếu tố nghiên cứu tạo ra SSG và phần còn lại do các yếu tố khác không nghiên cứu hay ngẫu nhiên tạo ra SSW. Nếu SSG càng nhỏ, tức là sự biến động do các yếu tố nghiên cứu quá ít, thì càng có cơ sở để chấp nhận và ngược lại. ● Bước 4: Tính trung bình của các tổng bình phương hay chính là phương sai. o Phương sai trong nội bộ nhóm o Phương sai giữa các nhóm ● Bước 5: Tính giá trị kiểm định theo phân phối Fisher: So sánh với giá trị kiểm định đã cho với giá trị tra bảng Fisher với bậc tự do của tử số là , bậc tự do của mẫu số là , với mức ý nghĩa Bác bỏ giả thuyết nếu: Nhận xét: Chúng ta có thể sử dụng giá trị để so sánh như sau: Bác bỏ nếu .
4 Tóm tắt các giá trị sau, được gọi là bảng ANOVA: Bậc tự do Tổng bình phương các chênh lệch Phương sai Tỉ số hay giá trị kiểm định Giữa các nhóm Trong nội bộ nhóm Tổng