Nội dung text Ôn-tập-phân-tích-dữ-liệu-bằng-Python
Phương pháp Độ lệch chuẩn/Z-score: Tính Z-score cho từng điểm dữ liệu theo công thức (giá trị - trung bình) / độ lệch chuẩn. Các điểm dữ liệu có Z-score nằm ngoài một ngưỡng nhất định (ví dụ: ±2 hoặc ±3) sẽ được coi là outlier. ● Phương pháp Clustering: Trong phân cụm dữ liệu, các điểm dữ liệu nằm ngoài các cụm thường được coi là outlier. Sau khi xác định các outlier, ta có thể chọn loại bỏ chúng hoặc thay thế bằng các giá trị khác, tùy thuộc vào mục tiêu phân tích. Để giữ lại 95% dữ liệu, các phương pháp sau có thể được sử dụng: ● Phương pháp Z-score: Khoảng ± 2 độ lệch chuẩn từ giá trị trung bình thường chứa khoảng 95% dữ liệu trong phân phối chuẩn. Các giá trị có Z-score nằm ngoài khoảng từ -2 đến 2 có thể loại bỏ. ● Phương pháp Percentile: Tính percentile thứ 2.5 (P2.5) và percentile thứ 97.5 (P97.5). Các giá trị nằm ngoài khoảng này có thể được loại bỏ. ● Phương pháp Boxplot: Dựa vào IQR để xác định upper fence và lower fence, sau đó các giá trị nằm trong khoảng này được coi là 95% dữ liệu không phải outlier. Giải thích, nhận xét hình Mật độ phân phối xác suất theo độ lệch tiêu chuẩn. Hình thể hiện phân phối chuẩn, xác suất của các giá trị nằm trong khoảng độ lệch chuẩn so với trung bình. 4.3 Quy trình kiểm định giả thuyết? Ý nghĩa việc kiểm định? 1. Đặt giả thuyết. 2. Chọn mức ý nghĩa. 3. Tính thống kê kiểm định. 4. So sánh với giá trị tới hạn hoặc tính p-value. 5. Kết luận. Kiểm định giúp đưa ra quyết định dựa trên dữ liệu, đánh giá tính đúng đắn của giả thuyết. 5 Phân biệt T-test, Z-test, F-test. Z-test: biết phương sai tổng thể. T-test: không biết phương sai tổng thể. F-test: so sánh phương sai hai tổng thể. (Xem công thức trong slide) 5 Giải thích ý nghĩa hình Finding critical value và mục đích. Hình minh họa miền bác bỏ trong kiểm định một phía. 1.645 là giá trị tới hạn ứng với alpha = 0.05, nếu thống kê kiểm định lớn hơn 1.645 thì bác bỏ H0. 5 Công thức tính critical value. Phụ thuộc vào loại kiểm định và phân phối. 5 Giải thích hàm stats.nom.ppf() và lý thuyết liên quan. Hàm tính giá trị tới hạn cho phân phối chuẩn. Nó liên quan đến việc xác định miền bác bỏ. 5 Quy trình time-series analysis? 1. Thu thập dữ liệu. 2. Khám phá dữ liệu. 3. Xử lý dữ liệu. 4. Xây dựng mô hình. 5. Đánh giá mô hình. 6. Dự báo. 7.3 Quy trình chạy ARIMA? 1. Kiểm tra tính dừng. 2. Xác định p, d, q. 3. Xây dựng mô hình. 4. Đánh giá. 5. Dự báo. 7.3 Giải thích các chỉ số p, d, q trong ARIMA. p: tự hồi quy, d: sai phân, q: trung bình trượt. 7.3 Nhận xét 2 hình trong slide 47 và 48 (7.3), hình nào dừng? Hình 1 không dừng vì giá trị trung bình và phương sai thay đổi. Hình 2 dừng vì trung bình và phương sai không đổi. 7.3 Khi nào dùng Arima? Dùng khi chuỗi thời gian dừng hoặc đưa về dừng bằng sai phân. Dữ liệu có hiện tượng tự tương quan. 7.3 Khi nào dùng bình quân di động? Khi nào dùng linear? Bình quân di động: làm mịn, giảm nhiễu. Linear: xu hướng tuyến tính. 7.3 Cách tạo Series từ list trong Pandas? pd.Series(my_list). 3.1 Cách tạo DataFrame từ dictionary? pd.DataFrame(my_dict). 3.1 Truy xuất dữ liệu từ DataFrame theo cột và dòng? df['column_name'], df.loc[], df.iloc[]. 3.1 Hàm apply() trong Pandas? Ví dụ. Áp dụng hàm cho mỗi phần tử/dòng/cột. Ví dụ: df['column'].apply(lambda x: x*2). 3.2 Trình bày một cách cô đọng qui trình kiểm định thống kê, hàm stats.ppf() có ý nghĩa gì ở kiểm định. 1. Đặt giả thuyết H0 và H1. 2. Chọn mức ý nghĩa alpha. 3. Xác định thống kê kiểm định và phân phối của nó. 4. Tính giá trị quan sát của thống kê kiểm định từ dữ liệu mẫu. 5. Xác định miền bác bỏ. stats.ppf() trả về giá trị tới hạn (critical value) cho phân phối đã cho, tương ứng với xác suất alpha (hoặc 1-alpha/2 trong kiểm định hai phía). Khó 5