Content text [SGU][Assignment-1] NLP - Skip-gram (DCT122C5).docx
BÀI TẬP 1 (20%) XỬ LÝ NGÔN NGỮ TỰ NHIÊN Thời gian: 90 phút Lớp: DCT122C5 Các bài tập sau tập trung vào việc thực hiện thủ công mô hình Skip-gram để học vector nhúng của từ. Skip-gram dự đoán từ ngữ ngữ cảnh dựa trên từ trung tâm. Sinh viên phải trình bày tính toán chi tiết với các giá trị số cụ thể. Để hỗ trợ tính toán, khuyến nghị sử dụng công cụ như Microsoft Excel để xử lý ma trận và vector. Dữ liệu mẫu và tạo cặp huấn luyện ● Dữ liệu mẫu: "I love eating pizza with friends." - Phân tách thành từ: ["I", "love", "eating", "pizza", "with", "friends"]. - Từ vựng: {"I":0, "love":1, "eating":2, "pizza":3, "with":4, "friends":5} (V=6 từ, chỉ số từ 0 đến 5). ● Tạo các cặp huấn luyện cho Skip-gram: - Sử dụng kích thước cửa sổ ngữ cảnh là 1: Với mỗi từ trung tâm tại vị trí t (t=1 đến 6), tạo cặp (, ) nơi là từ ngữ cảnh trong vị trí t-1 đến t+1 (loại trừ và nằm trong giới hạn câu). - Yêu cầu: Sinh viên tự xác định và liệt kê tất cả các cặp huấn luyện. Liệt kê danh sách cặp từ (sử dụng chỉ số) theo mẫu dưới đây: [Điền danh sách cặp từ: ...] Tổng số cặp: [___] (điền số lượng). DỮ LIỆU CHO CÁC BÀI TẬP ● Cặp mẫu cho các bài tập: Từ trung tâm = "pizza" (index=3), từ ngữ cảnh = "with" (index=4).