Nội dung text [SGU] Assignment_2 - Deep Learning (2025-2026_HK1).docx
BÀI TẬP THỰC HÀNH HỌC SÂU (HK1 / 2025-2026) ĐỀ TÀI: DỊCH MÁY ANH-VIỆT VỚI MÔ HÌNH ENCODER - DECODER DỰA TRÊN LSTM 1. Quy định ● Nhóm: Tối đa 02 thành viên. ● Thời hạn nộp: 08/12/2025 (23:59). ● Hình thức nộp: 01 file PDF duy nhất (báo cáo + mã nguồn trong phụ lục) qua hệ thống E-Learning. ● Không chấp nhận nộp trễ. 2. Giới thiệu Đồ án yêu cầu triển khai một mô hình Encoder-Decoder sử dụng LSTM để giải quyết bài toán dịch máy từ tiếng Anh sang tiếng Việt. Đồ án cho phép sử dụng các thư viện có sẵn (không bắt buộc triển khai từ đầu). Mô hình sử dụng context vector cố định từ Encoder (có thể thêm attention nếu muốn). Nội dung triển khai: ● Xử lý dữ liệu chuỗi song song với sự hỗ trợ từ thư viện. ● Huấn luyện mô hình với PyTorch. ● Thực hiện dự đoán và đánh giá hiệu suất. ● Phân tích lỗi và đề xuất cải tiến đơn giản. Công cụ: Python + PyTorch (cho phép dùng torchtext, torchtext.legacy, hoặc các thư viện hỗ trợ seq2seq cơ bản; không dùng transformers). 3. Mục tiêu 1. Hiểu và triển khai kiến trúc Encoder-Decoder LSTM với context vector cố định, sử dụng thư viện hỗ trợ. 2. Xử lý dữ liệu chuỗi, huấn luyện, đánh giá bằng BLEU score. 3. Phân tích lỗi dịch thuật và đề xuất cải tiến cơ bản (ví dụ: thêm attention).