Content text [2024-2025][Mock-Test] Đồ án chuyên ngành.docx
Làm tròn kết quả đến 3 chữ số thập phân. (Gợi ý: Sử dụng ). 4. Tính đầu ra Attention (1 điểm): Nhân ma trận xác suất chú ý với ma trận để thu được đầu ra của Scaled Dot-Product Attention. Làm tròn kết quả đến 2 chữ số thập phân. Phần 2: Multi-Head Attention (3 điểm) Mô tả: Multi-Head Attention cho phép mô hình học các biểu diễn khác nhau bằng cách áp dụng Scaled Dot-Product Attention trên nhiều "đầu" (heads) song song. Công thức tổng quát: Trong đó: ● . ● : Các ma trận trọng số cho truy vấn, khóa, và giá trị của đầu thứ . ● : Ma trận trọng số đầu ra. ● : Số lượng đầu (heads). Dữ liệu đầu vào: Sử dụng lại các ma trận , , và từ Phần 1. Giả sử mô hình có đầu, với kích thước đầu vào và đầu ra được chia nhỏ. Mỗi đầu sẽ xử lý các vector có kích thước . Các ma trận trọng số cho hai đầu được cho như sau: ● Đầu 1: ● Đầu 2: ● Ma trận trọng số đầu ra: Yêu cầu: 1. Tính toán cho Đầu 1 (1 điểm):
o Tính , , . o Thực hiện Scaled Dot-Product Attention cho Đầu 1: . Làm tròn kết quả đến 2 chữ số thập phân. 2. Tính toán cho Đầu 2 (1 điểm): o Tính , , . o Thực hiện Scaled Dot-Product Attention cho Đầu 2: . Làm tròn kết quả đến 2 chữ số thập phân. 3. Tính đầu ra Multi-Head Attention (1 điểm): o Nối (concatenate) và . o Nhân kết quả nối với để thu được đầu ra cuối cùng. Làm tròn kết quả đến 2 chữ số thập phân. Phần 3: Cross-Attention (3 điểm) Mô tả: Cross-Attention là một cơ chế chú ý được sử dụng trong các mô hình Transformer, đặc biệt trong phần giải mã (decoder), nơi ma trận truy vấn (Q) được lấy từ chuỗi mục tiêu (target sequence), còn ma trận khóa (K) và giá trị (V) được lấy từ chuỗi nguồn (source sequence). Công thức tương tự Scaled Dot-Product Attention: Dữ liệu đầu vào: Giả sử có một chuỗi nguồn (source) gồm 2 token và một chuỗi mục tiêu (target) gồm 2 token, mỗi token được biểu diễn bằng vector 3 chiều (). Các ma trận được cho như sau: ● Ma trận truy vấn từ chuỗi mục tiêu: ● Ma trận khóa và giá trị từ chuỗi nguồn: Yêu cầu: 1. Tính (0.75 điểm): Tính ma trận tích , kích thước . 2. Chia tỷ lệ (Scaled) (0.75 điểm): Chia ma trận cho . Làm tròn kết quả đến 2 chữ số thập phân.
3. Áp dụng Softmax (0.75 điểm): Áp dụng hàm softmax cho từng hàng của ma trận đã chia tỷ lệ để thu được ma trận xác suất chú ý. Làm tròn kết quả đến 3 chữ số thập phân. (Gợi ý: Sử dụng ). 4. Tính đầu ra Cross-Attention (0.75 điểm): Nhân ma trận xác suất chú ý với ma trận để thu được đầu ra của Cross-Attention. Làm tròn kết quả đến 2 chữ số thập phân.