PDF Google Drive Downloader v1.1


Report a problem

Content text [SGU][Assignment-1] NLP - Skip-gram (DCT122C4).docx

BÀI TẬP 1 (20%) XỬ LÝ NGÔN NGỮ TỰ NHIÊN Thời gian: 90 phút Lớp: DCT122C4 Các bài tập sau tập trung vào việc thực hiện thủ công mô hình Skip-gram để học vector nhúng của từ. Skip-gram dự đoán từ ngữ ngữ cảnh dựa trên từ trung tâm. Sinh viên phải trình bày tính toán chi tiết với các giá trị số cụ thể. Để hỗ trợ tính toán, khuyến nghị sử dụng công cụ như Microsoft Excel để xử lý ma trận và vector. Dữ liệu mẫu và tạo cặp huấn luyện ● Dữ liệu mẫu: "I love eating pizza with friends." - Phân tách thành từ: ["I", "love", "eating", "pizza", "with", "friends"]. - Từ vựng: {"I":0, "love":1, "eating":2, "pizza":3, "with":4, "friends":5} (V=6 từ, chỉ số từ 0 đến 5). ● Tạo các cặp huấn luyện cho Skip-gram: - Sử dụng kích thước cửa sổ ngữ cảnh là 1: Với mỗi từ trung tâm tại vị trí t (t=1 đến 6), tạo cặp (, ) nơi là từ ngữ cảnh trong vị trí t-1 đến t+1 (loại trừ và nằm trong giới hạn câu). - Yêu cầu: Sinh viên tự xác định và liệt kê tất cả các cặp huấn luyện. Liệt kê danh sách cặp từ (sử dụng chỉ số) theo mẫu dưới đây: [Điền danh sách cặp từ: ...] Tổng số cặp: [___] (điền số lượng). DỮ LIỆU CHO CÁC BÀI TẬP ● Cặp mẫu cho các bài tập:
Từ trung tâm = "pizza" (index=3), từ ngữ cảnh = "eating" (index=2). ● Tham số: Kích thước vector nhúng: . Tỷ lệ học . ● Thiết lập tham số ban đầu: - : Ma trận nhúng đầu vào (mỗi hàng là vector nhúng cho một từ). W = [ [0.01, 0.02, 0.03], # I (0) [0.02, 0.03, 0.04], # love (1) [0.03, 0.04, 0.05], # eating (2) [0.04, 0.05, 0.06], # pizza (3) [0.05, 0.06, 0.07], # with (4) [0.06, 0.07, 0.08] # friends (5) ] - : Ma trận nhúng đầu ra (mỗi cột là vector ngữ cảnh cho một từ). U = [[0.01, 0.02, 0.03, 0.04, 0.05, 0.06], [0.02, 0.03, 0.04, 0.05, 0.06, 0.07], [0.03, 0.04, 0.05, 0.06, 0.07, 0.08] ] Skip-gram không có Negative Sampling (Softmax đầy đủ) Phần này sử dụng softmax đầy đủ để tính xác suất trên toàn bộ từ vựng, sử dụng hàm mất mát Cross-Entropy. Sử dụng cặp mẫu đã chọn để tính toán quá trình huấn luyện Skip- gram (vector hóa, lan truyền tiến, mất mát, lan truyền ngược, cập nhật tham số, v.v.). Bài tập 1: Vector hóa và Lan truyền tiến (2 điểm) Thực hiện vector hóa từ trung tâm "pizza" (index=3) thành vector one-hot. Tính vector nhúng của từ trung tâm từ ma trận W. Tính điểm số bằng cách sử dụng ma trận U và embedding trung tâm. Tính giá trị softmax cho tất cả các từ trong từ vựng. Trình bày tất cả các bước tính toán chi tiết.

Related document

x
Report download errors
Report content



Download file quality is faulty:
Full name:
Email:
Comment
If you encounter an error, problem, .. or have any questions during the download process, please leave a comment below. Thank you.