PDF Google Drive Downloader v1.1


Báo lỗi sự cố

Nội dung text [SGU] [NLP] Project (2025-2026_HK1).docx

ĐỒ ÁN XỬ LÝ NGÔN NGỮ TỰ NHIÊN (HK1 / 2025-2026) ĐÊ TÀI: DỊCH MÁY ANH-PHÁP / ANH-ĐỨC VỚI MÔ HÌNH ENCODER-DECODER LSTM 1. Quy định ● Nhóm đồ án: Tối đa 2 sinh viên. ● Thời hạn nộp: 14/12/2025 (23:59). ● Hình thức nộp: 01 file PDF duy nhất (báo cáo + mã nguồn trong phụ lục) qua hệ thống E-Learning. ● Không chấp nhận nộp trễ. 2. Giới thiệu Bài tập yêu cầu sinh viên triển khai từ đầu một mô hình Encoder-Decoder sử dụng LSTM để giải quyết bài toán dịch máy từ tiếng Anh sang tiếng Pháp. Mô hình sử dụng context vector cố định từ Encoder (không bắt buộc sử dụng cơ chế attention). Sinh viên sẽ: ● Xử lý dữ liệu chuỗi song song. ● Huấn luyện mô hình với PyTorch. ● Thực hiện dự đoán và đánh giá hiệu suất. ● Phân tích lỗi và đề xuất cải tiến. Công cụ: Python + PyTorch (không dùng thư viện seq2seq có sẵn như torchtext.legacy hoặc transformers). 3. Mục tiêu 1. Hiểu và triển khai kiến trúc Encoder-Decoder LSTM với context vector cố định.

pip install spacy torch torchtext python -m spacy download en_core_web_sm python -m spacy download fr_core_news_sm Tokenization from torchtext.data.utils import get_tokenizer en_tokenizer = get_tokenizer('spacy', language='en_core_web_sm') fr_tokenizer = get_tokenizer('spacy', language='fr_core_news_sm') Xây dựng từ điển (Vocabulary) ● Dùng build_vocab_from_iterator. ● Thêm token đặc biệt: <unk>, <pad>, <sos>, <eos>. ● Giới hạn: 10.000 từ phổ biến nhất mỗi ngôn ngữ. Padding & Packing ● Dùng pad_sequence để đồng bộ độ dài trong batch. ● Dùng pack_padded_sequence trước khi vào LSTM. ● Sắp xếp batch theo độ dài giảm dần → enforce_sorted=True. DataLoader ● Batch size: 32–128 ● Sử dụng collate_fn tùy chỉnh để xử lý padding và packing. 6.2. Xây dựng mô hình Encoder ● Input: Chuỗi token tiếng Anh → embedding (size 256–512). ● Output: o Chuỗi hidden states o Context vector = → truyền sang Decoder. Decoder ● Input: o Ban đầu: <sos> + context vector từ Encoder. o Các bước sau: token trước đó (ground truth hoặc dự đoán).

Tài liệu liên quan

x
Báo cáo lỗi download
Nội dung báo cáo



Chất lượng file Download bị lỗi:
Họ tên:
Email:
Bình luận
Trong quá trình tải gặp lỗi, sự cố,.. hoặc có thắc mắc gì vui lòng để lại bình luận dưới đây. Xin cảm ơn.