Ôn-tập-phân-tích-dữ-liệu-bằng-Python

Content text Ôn-tập-phân-tích-dữ-liệu-bằng-Python

Giải thích về việc định hướng xây dựng mô hình linear regression ở hình dưới đây (hình Mô hình Linear Regression - slide 3). Mô hình Linear Regression tìm mối quan hệ tuyến tính giữa biến phụ thuộc (y) và biến độc lập (x). Nó tìm đường thẳng phù hợp nhất để dự đoán y dựa trên x, tối thiểu hóa tổng bình phương sai số (dự đoán - thực tế). Trung bình 7.2 Cây quyết định là gì? Ứng dụng? Cây quyết định là một mô hình học máy dùng để phân loại và hồi quy. Nó phân chia dữ liệu dựa trên các thuộc tính, tạo thành cấu trúc cây với các nút quyết định và nút lá (đại diện cho lớp hoặc giá trị dự đoán). Ứng dụng: phân loại khách hàng, dự đoán rủi ro tín dụng, chẩn đoán bệnh,... Trung bình 7.1 Phân biệt z-score và z-test. Z-score là số đo độ lệch chuẩn của một giá trị so với trung bình. Z-test là kiểm định giả thuyết về trung bình tổng thể khi biết phương sai tổng thể. Trung bình 5 Phân biệt ratio gain với info gain. Cả hai đều đo lường mức độ thông tin thu được khi phân chia dữ liệu dựa trên một thuộc tính. Info gain tính toán lượng thông tin giảm đi (entropy) sau khi phân chia. Gain ratio chuẩn hóa info gain bằng cách chia cho thông tin nội tại của phân chia (intrinsic information), tránh thiên vị với các thuộc tính có nhiều giá trị. Khó 7.1 Khi nào dùng ARIMA? ARIMA dùng cho chuỗi thời gian có tính dừng hoặc có thể đưa về tính dừng bằng phép sai phân. Nó kết hợp tự hồi quy (AR), tích hợp (I) và trung bình trượt (MA) để mô hình hóa chuỗi thời gian. Khó 7.3 Tự hồi quy là gì? Chỉ ra mô hình? Tự hồi quy là mô hình chuỗi thời gian, giá trị hiện tại phụ thuộc vào các giá trị quá khứ của chính nó. Ví dụ: AR(1): Y_t = a + bY_t-1 + ε_t. Khó 7.3 Nêu cách xây dựng cây quyết định? 1. Chọn thuộc tính gốc dựa trên độ đo lựa chọn thuộc tính (information gain, gain ratio, gini index). 2. Phân chia dữ liệu theo giá trị của thuộc tính gốc. 3. Lặp lại bước 1 và 2 cho các nút con cho đến khi đạt điều kiện dừng (ví dụ: tất cả các mẫu thuộc cùng một lớp). Khó 7.1 So sánh cây quyết định và hồi quy khác nhau thế nào? Cây quyết định dùng cho cả phân loại và hồi quy, xử lý được dữ liệu rời rạc và liên tục. Hồi quy tập trung vào dự đoán giá trị liên tục, giả định mối quan hệ tuyến tính giữa các biến. Cây quyết định dễ hiểu, dễ diễn giải hơn hồi quy. Khó 7.1, 7.2 Phân biệt Pandas và Numpy. Pandas cung cấp cấu trúc dữ liệu linh hoạt (Series, DataFrame) để thao tác và phân tích dữ liệu có nhãn. Numpy tập trung vào tính toán số học với mảng nhiều chiều, hiệu quả cho các phép toán đại số tuyến tính. Trung bình 2, 3.1 Pandas có các kiểu cấu trúc dữ liệu nào (kể tên, định nghĩa, đặc điểm) và so sánh các kiểu dữ liệu đó? - Series: mảng 1 chiều có nhãn. - DataFrame: bảng 2 chiều với các cột có thể chứa kiểu dữ liệu khác nhau. - Panel: dữ liệu 3 chiều. Series đơn giản, DataFrame linh hoạt, Panel ít dùng. Trung bình 3.1 So sánh series (mảng 1 chiều) của pandas và mảng 1 chiều bên numpy có gì giống và khác nhau? Giống: đều lưu trữ dữ liệu 1 chiều. Khác: Series có index (nhãn) cho mỗi phần tử, hỗ trợ kiểu dữ liệu khác nhau trong cùng một Series, Numpy array chỉ chứa cùng một kiểu dữ liệu. Trung bình 2, 3.1 So sánh list và array? List linh hoạt, có thể chứa kiểu dữ liệu khác nhau, kích thước thay đổi được. Array hiệu quả cho tính toán số học, chứa cùng kiểu dữ liệu, kích thước cố định. Trung bình 2 4 cái tham số liên quan đến pivot và công dụng. index: cột làm index mới, columns: cột làm cột mới, values: cột làm giá trị, aggfunc: hàm tổng hợp (sum, mean, count...). Trung bình 3.2 Các giai đoạn tiền xử lý dữ liệu? Nếu là em, thường em sẽ xử lý những cái gì trong dataset? 1. Làm sạch dữ liệu (xử lý missing values, outliers). 2. Biến đổi dữ liệu (chuẩn hóa, rời rạc hóa). 3. Giảm chiều dữ liệu. Tôi thường xử lý missing values, outliers, chuẩn hóa dữ liệu. Trung bình 4 Hãy nêu giải pháp để nhận diện phần tử biên (outlier) cho 1 tập dữ liệu và đề ra giải pháp giảm noisy data? Nhận diện outlier bằng boxplot, IQR, Z-score. Giảm noisy data bằng binning, clustering, hồi quy. Trung bình 4.3 Các bước loại bỏ outlier? Nếu thầy có 1 bộ dataset, thầy muốn giữ lại 95% dữ liệu và loại bỏ 5% dữ liệu thì chọn phương pháp nào (Thầy trả lời chuẩn hóa z-score) 1. Xác định outlier. 2. Loại bỏ hoặc thay thế outlier. Chuẩn hóa Z-score, loại bỏ các giá trị có Z-score > 1.96 (giữ lại 95% dữ liệu). Giải thích, nhận xét hình này (Mật độ phân phối xác suất theo độ lệch tiêu chuẩn (/z, ơ)) Hình thể hiện phân phối chuẩn, xác suất của các giá trị nằm trong khoảng độ lệch chuẩn so với trung bình. Trung bình 4.3 Quy trình kiểm định giả thuyết? Ý nghĩa việc kiểm định giả thuyết (để đánh giá, kiểm tra các nhận định, kết quả đưa ra đúng hay sai, tồn tại hay không,...) 1. Đặt giả thuyết. 2. Chọn mức ý nghĩa. 3. Tính thống kê kiểm định. 4. So sánh với giá trị tới hạn hoặc tính p-value. 5. Kết luận. Kiểm định giúp đưa ra quyết định dựa trên dữ liệu, đánh giá tính đúng đắn của giả thuyết. Trung bình 5 Phân biệt các loại kiểm định (T-test, Z-test, F-test) => So sánh, công thức cách tính. - Z-test: dùng khi biết phương sai tổng thể. - T-test: dùng khi không biết phương sai tổng thể. - F-test: so sánh phương sai của hai tổng thể. (Xem công thức trong slide) Khó 5 Giải thích ý nghĩa hình này (câu chính đề 14) => Đặc biệt giải thích sao ra được con số 1.645 với mục đích của hình này làm gì? ❖ Finding critical value: One-Tail Standardized Cumulative Normal Distribution Table (Portion) What is Z given a = 0.05? Hình minh họa miền bác bỏ trong kiểm định một phía. 1.645 là giá trị tới hạn ứng với alpha = 0.05, nếu thống kê kiểm định lớn hơn 1.645 thì bác bỏ H0. Trung bình 5 Công thức tính cái critical value. Phụ thuộc vào loại kiểm định và phân phối của thống kê kiểm định. Trung bình 5 Giải thích hàm stats.nom.ppf() ở python? Hãy giải thích thêm về lý thuyết kiểm định liên quan ở hàm stats.nom.ppf() Hàm tính giá trị tới hạn cho phân phối chuẩn. Nó liên quan đến việc xác định miền bác bỏ trong kiểm định giả thuyết. Trung bình 5 Quy trình time-series analysis? 1. Thu thập dữ liệu. 2. Khám phá dữ liệu (trực quan hóa, thống kê mô tả). 3. Xử lý dữ liệu (xử lý missing values, outliers). 4. Xây dựng mô hình. 5. Đánh giá mô hình. 6. Dự báo. Trung bình 7.3

PDF Google Drive Downloader v1.1

Content text Ôn-tập-phân-tích-dữ-liệu-bằng-Python

Related document

PDF Google Drive Downloader v1.1

Title Ôn-tập-phân-tích-dữ-liệu-bằng-Python ✅

Content text Ôn-tập-phân-tích-dữ-liệu-bằng-Python

Related document