Content text Chương 4 - TQ & HQ.docx
1 CHƯƠNG 4: HỆ SỐ TƯƠNG QUAN VÀ HỒI QUY 4.1 Hệ số tương quan tuyến tính 4.1.1. Hệ số tương quan Pearson Giả sử các biến ngẫu nhiên và đều tuân theo phân phối chuẩn. Để xem xét mối quan hệ tương quan tuyến tính giữa các biến ngẫu nhiên, được tính thông qua hệ số tương quan. Hệ số tương quan Pearson, hay gọi tắt là hệ số tương quan, là chỉ số thống kê đo lường mức độ mạnh yếu của mối quan hệ giữa hai biến ngẫu nhiên. Hệ số tương quan trong tiếng Anh là Correlation coefficient. Hệ số tương quan có giá trị từ -1.0 đến 1.0. Kết quả được tính ra lớn hơn 1.0 hoặc nhỏ hơn -1 có nghĩa là có lỗi trong phép đo tương quan. Trong đó: Hệ số tương quan có giá trị âm cho thấy hai biến ngẫu nhiên có mối quan hệ nghịch biến hoặc tương quan âm (nghịch biến tuyệt đối khi giá trị bằng -1). Hệ số tương quan có giá trị dương cho thấy hai biến ngẫu nhiên mối quan hệ đồng biến hoặc tương quan dương (đồng biến tuyệt đối khi giá trị bằng 1). Tương quan bằng 0 cho hai biến ngẫu nhiên không có mối quan hệ tương quan với nhau. Thông thường, hệ số tương quan Pearson được chia các trường hợp như sau: Nếu hệ số tương quan nằm trong khoảng từ 0,50 đến 1, thì hai biến ngẫu nhiên được cho là tương quan mạnh. Nếu hệ số tương quan nằm trong khoảng từ 0,30 đến 0,49, thì hai biến ngẫu nhiên được gọi là tương quan trung bình. Nếu hệ số tương quan nằm dưới 0.29, thì hai biến ngẫu nhiên được gọi là một mối tương quan yếu. Ví dụ 4.1. Cho bộ dữ liệu gồm 20 quan sát của mỗi bộ như sau: X Y Z T P 183 151 -334 398 32 192 188 -380 388 4 207 210 -417 411 -3 174 146 -320 376 28 186 161 -347 397 25 180 141 -321 399 39 211 222 -433 411 -11 190 176 -366 394 14 218 252 -470 402 -34 185 180 -365 375 5 207 217 -424 404 -10
2 208 191 -399 433 17 214 256 -470 386 -42 194 179 -373 403 15 196 194 -390 394 2 187 183 -370 378 4 205 190 -395 425 15 174 140 -314 382 34 183 167 -350 382 16 224 256 -480 416 -32 Hãy nêu rõ mối quan hệ giữa các bộ dữ liệu. Giải: Hệ số tương quan dựa vào mối quan hệ tương quan thể hiện dạng đồ thị như sau: X Y Z D E 180 200 220 180200220 150 200 250 150200250 -500 -400 -300 -500-400-300 380 400 420 440 380400420440 -50 0 50 -50050 Các giá trị tính cụ thể là: và , và , và có mối quan hệ đồng biến mạnh, thể hiện biến này tăng thì biến kia cũng tăng. và , và , và , và có mối quan hệ nghịch biến mạnh, thể hiện biến này tăng thì biến kia giảm.
3 và có mối quan hệ đồng biến trung bình, thể hiện biến này tăng thì biến kia cũng tăng, nhưng mức tăng ở mức trung bình. và có mối quan hệ nghịch biến trung bình, thể hiện biến này tăng thì biến kia giảm, nhưng mức giảm ở mức trung bình. và có mối quan hệ nghịch biến yếu, thể hiện biến này tăng thì biến kia giảm, nhưng mức giảm không rõ rệt. Kết quả thực hành bằng phần mềm Stata: và , và , và có mối quan hệ đồng biến mạnh, thể hiện các hệ số tương quan nhận các giá trị . và , và , và , và có mối quan hệ nghịch biến mạnh, thể hiện biến này tăng thì biến kia giảm. và có mối quan hệ đồng biến trung bình, thể hiện biến này tăng thì biến kia cũng tăng, nhưng mức tăng ở mức trung bình. và có mối quan hệ nghịch biến trung bình, thể hiện biến này tăng thì biến kia giảm, nhưng mức giảm ở mức trung bình. và có mối quan hệ nghịch biến yếu, thể hiện biến này tăng thì biến kia giảm, nhưng mức giảm không rõ rệt. Có nhiều loại hệ số tương quan, nhưng loại phổ biến nhất là tương quan Pearson. Chỉ số này đo lường sức mạnh và mối quan hệ tuyến tính giữa hai biến. Nó không thể đo lường các mối quan hệ phi tuyến giữa hai biến và không thể phân biệt giữa các biến phụ thuộc và biến độc lập. Trong đó là hệ số tương quan giữa hai biến ngẫu nhiên và , là hiệp phương sai giữa hai biến ngẫu nhiên và lần lượt là phương sai của biến ngẫu nhiên và