Nội dung text Todolist Khai phá.docx
Số lượng hiện tại: 7 người Nhớ tóm tắt sương sương câu hỏi để sau này tra cho tiện. Nhớ ghi kèm dẫn chứng như là ở trong slide trang bao nhiêu, hỏi chat GPT, link đường tài liệu,... nhé BẢNG PHÂN CÔNG Bài tập Lý thuyết Tóm tắt câu hỏi ● Câu 1: An ● Tuấn DONE ● Câu 2: An ● Tuấn DONE ● Câu 3: KHÔNG CÓ BÀI TẬP ● Tuấn Câu Lý thuyết (OK) ● Câu 4: HA ● Tuấn DONE ● Câu 5: Hiếu ● Tuấn DONE ● Câu 6: Tiệp ● Tuấn DONE ● Câu 7: KHÔNG CÓ BÀI TẬP ● Tuấn Câu Lý thuyết (OK) ● Câu 8: Phạm Đỗ Anh Minh ● Tuấn Hỏi thầy về kết luận ● Câu 9: Phúc ● Quảng DONE ● Câu 10: Phúc ● Quảng DONE ● Câu 11: Tâm ● Quảng DONE ● Câu 12: Hiếu ● Quảng Phản ánh lại với thầy về phần b giống lập trình ● Câu 13: HA ● Quảng DONE
● Câu 14: Phạm Đỗ Anh Minh Đang làm lại ● Quảng DONE (13==14) ● Câu 15: KHÔNG CÓ BÀI TẬP ● Quảng Câu Lý thuyết ● Câu 16: HA ● Tùng Câu Lý thuyết có lập trình ● Câu 17: An Hỏi thầy làm bài này i ● Tùng DONE ● Câu 18: Phạm Đỗ Anh Minh Hỏi thầy cách làm bài này i ● Tùng Câu Lý thuyết có lập trình xong phan bt c ( do có code nên gửi cho An để an check) ● Câu 19: Phúc ● Tùng Chưa giải thích đại lượng ● Câu 20: Phạm Đỗ Anh Minh ● Tùng DONE ● Câu 21: Tiệp-Sai (Phúc said) ● Tùng DONE ● Câu 22: Tiệp ● Tùng Thầy bỏ câu này
Câu 1 - a) Trình bày các bước để xây dựng một sản phẩm antivirus ứng dụng học máy, lấy ví dụ - b) Cách thức và chỉ số đánh giá một sản phẩm antivirus nói chung và sản phẩm sử dụng machine learning nói riêng - c) Cho 1000 file mẫu, có phân phối như sau: Loại file Số lượng File sạch 100 Mã độc A 150 Mã độc B 200 Mã độc C 50 Mã độc D 100 Mã độc E 200 Mã độc F 200 - Một sản phẩm AV có tỷ lệ phát hiện đúng accuracy 90%, hãy cho biết sản phẩm đó có tốt hay không? Tại sao? - d) Biết sản phẩm AV này phát hiện được 90 file sạch là đúng và 800 file mã độc là đúng. Hãy tính ma trận confusion matrix, các chỉ số TPR, FPR, Accuracy, Precision, Recall, F1 Score và giải thích ý nghĩa của các chỉ số này. BÀI LÀM A: Trình bày các bước để xây dựng một sản phẩm antivirus ứng dụng học máy, lấy ví dụ Để xây dựng một sản phẩm antivirus ứng dụng học máy, ta có thể tuân thủ các bước sau: 1. Thu thập dữ liệu: Thu thập dữ liệu về các mẫu phần mềm độc hại và không độc hại để huấn luyện mô hình học máy. 2. Tiền xử lý dữ liệu: Tiền xử lý dữ liệu để chuẩn hóa và loại bỏ dữ liệu nhiễu, giúp cho mô hình học máy hoạt động tốt hơn.
3. Chọn và huấn luyện mô hình: Chọn một mô hình học máy phù hợp để xây dựng sản phẩm antivirus, ví dụ như mô hình học sâu CNN hoặc mô hình học máy SVM. Sau đó, sử dụng dữ liệu đã thu thập để huấn luyện mô hình học máy. 4. Đánh giá mô hình: Sử dụng dữ liệu kiểm tra để đánh giá hiệu quả của mô hình học máy. Nếu kết quả đạt yêu cầu, ta có thể tiếp tục sang bước tiếp theo. Nếu không, ta cần tinh chỉnh lại mô hình hoặc sử dụng mô hình khác. 5. Triển khai sản phẩm: Triển khai sản phẩm antivirus trên một nền tảng thực tế, cho phép các người dùng tải về và sử dụng. 6. Cập nhật mô hình: Cập nhật mô hình học máy thường xuyên để đảm bảo tính hiệu quả của sản phẩm antivirus. Ví dụ, ta có thể xây dựng một sản phẩm antivirus sử dụng mô hình học sâu CNN để phát hiện phần mềm độc hại trên các file tin nhắn điện thoại di động. Đầu tiên, ta thu thập dữ liệu từ các tin nhắn điện thoại di động đã được gán nhãn là độc hại hoặc không độc hại. Sau đó, ta tiền xử lý dữ liệu bằng cách loại bỏ các ký tự không phù hợp và chuẩn hóa dữ liệu. Tiếp theo, ta sử dụng mô hình học sâu CNN để huấn luyện và đánh giá hiệu quả của mô hình. Cuối cùng, ta triển khai sản phẩm trên nền tảng điện thoại di động và cập nhật mô hình học máy thường xuyên để đảm bảo tính hiệu quả của sản phẩm antivirus. B: Cách thức đánh giá một sản phẩm antivirus nói chung: 1. Độ phát hiện: Độ phát hiện (detection rate) là tỷ lệ phần mềm độc hại được phát hiện bởi sản phẩm antivirus so với tổng số phần mềm độc hại trong tập dữ liệu. Đây là chỉ số quan trọng đánh giá khả năng bảo vệ của sản phẩm antivirus. 2. Sai sót dương (false positive): Sai sót dương (false positive) là trường hợp một phần mềm không độc hại bị nhận diện là độc hại bởi sản phẩm antivirus. Chỉ số này càng thấp thì sản phẩm antivirus càng được đánh giá cao về độ chính xác. 3. Hiệu suất: Hiệu suất (performance) của sản phẩm antivirus cũng rất quan trọng. Chỉ số này đánh giá khả năng của sản phẩm antivirus trong việc quét và