Nội dung text Chương 4 - TQ & HQ.docx
1 CHƯƠNG 4: HỆ SỐ TƯƠNG QUAN VÀ HỒI QUY 4.1 Hệ số tương quan tuyến tính 4.1.1. Hệ số tương quan Pearson Giả sử các biến ngẫu nhiên và đều tuân theo phân phối chuẩn. Để xem xét mối quan hệ tương quan tuyến tính giữa các biến ngẫu nhiên, được tính thông qua hệ số tương quan. Hệ số tương quan Pearson, hay gọi tắt là hệ số tương quan, là chỉ số thống kê đo lường mức độ mạnh yếu của mối quan hệ giữa hai biến ngẫu nhiên. Hệ số tương quan trong tiếng Anh là Correlation coefficient. Hệ số tương quan có giá trị từ -1.0 đến 1.0. Kết quả được tính ra lớn hơn 1.0 hoặc nhỏ hơn -1 có nghĩa là có lỗi trong phép đo tương quan. Trong đó: Hệ số tương quan có giá trị âm cho thấy hai biến ngẫu nhiên có mối quan hệ nghịch biến hoặc tương quan âm (nghịch biến tuyệt đối khi giá trị bằng -1). Hệ số tương quan có giá trị dương cho thấy hai biến ngẫu nhiên mối quan hệ đồng biến hoặc tương quan dương (đồng biến tuyệt đối khi giá trị bằng 1). Tương quan bằng 0 cho hai biến ngẫu nhiên không có mối quan hệ tương quan với nhau. Thông thường, hệ số tương quan Pearson được chia các trường hợp như sau: Nếu hệ số tương quan nằm trong khoảng từ 0,50 đến 1, thì hai biến ngẫu nhiên được cho là tương quan mạnh. Nếu hệ số tương quan nằm trong khoảng từ 0,30 đến 0,49, thì hai biến ngẫu nhiên được gọi là tương quan trung bình. Nếu hệ số tương quan nằm dưới 0.29, thì hai biến ngẫu nhiên được gọi là một mối tương quan yếu. Ví dụ 4.1. Cho bộ dữ liệu gồm 20 quan sát của mỗi bộ như sau: X Y Z T P 183 151 -334 398 32 192 188 -380 388 4 207 210 -417 411 -3 174 146 -320 376 28 186 161 -347 397 25 180 141 -321 399 39 211 222 -433 411 -11 190 176 -366 394 14 218 252 -470 402 -34 185 180 -365 375 5 207 217 -424 404 -10
4 lần lượt là độ lệch chuẩn của biến ngẫu nhiên và . Hệ số tương quan Pearson, gọi tắt là hệ số tương quan, đối với mẫu và được tính bởi công thức: Ví dụ 4.2. Tính hệ số tương quan vào bộ dữ liệu và trong ví dụ 4.1. X Y Xi-Xtb Yi-Ytb (Xi-Xtb)*(Yi-Ytb) (Xi- Xtb)^2 (Yi- Ytb)^2 183 151 -12.9 -39 503.1 166.41 1521 192 188 -3.9 -2 7.8 15.21 4 207 210 11.1 20 222 123.21 400 174 146 -21.9 -44 963.6 479.61 1936 186 161 -9.9 -29 287.1 98.01 841 180 141 -15.9 -49 779.1 252.81 2401 211 222 15.1 32 483.2 228.01 1024 190 176 -5.9 -14 82.6 34.81 196 218 252 22.1 62 1370.2 488.41 3844 185 180 -10.9 -10 109 118.81 100 207 217 11.1 27 299.7 123.21 729 208 191 12.1 1 12.1 146.41 1 214 256 18.1 66 1194.6 327.61 4356 194 179 -1.9 -11 20.9 3.61 121 196 194 0.1 4 0.4 0.01 16 187 183 -8.9 -7 62.3 79.21 49 205 190 9.1 0 0 82.81 0 174 140 -21.9 -50 1095 479.61 2500 183 167 -12.9 -23 296.7 166.41 529 224 256 28.1 66 1854.6 789.61 4356 Trung bình 195.9 190 Tổng 9644 4203.8 24924 Giải: Hệ số tương quan giữa hai bộ dữ liệu và theo đúng công thức: Tức là và có mối quan hệ đồng biến mạnh vì hệ số tương quan dương và gần tới 1. 4.1.2. Kiểm định hệ số tương quan Pearson Bài toán kiểm định về hệ số tương quan giữa hai bộ dữ liệu là: