[Tiểu luận] Seminar chuyên đề (2024-2025 / HK2)

Content text [Tiểu luận] Seminar chuyên đề (2024-2025 / HK2)

Yêu cầu môi trường ● Python 3.8 trở lên. ● Thư viện: pip install torch pandas numpy nltk scikit-learn torchtext. ● Hướng dẫn: o Chạy pip install -r requirements.txt nếu dùng file requirements.txt. o Kiểm tra: python -c 'import torch; print(torch.__version__)' để xác nhận Torch hoạt động. Cách xây dựng dữ liệu ● Nguồn dữ liệu: Thu thập từ mạng xã hội (X) hoặc sinh bằng LLM với prompt: Tạo 10 văn bản ngắn (<50 từ) về cảm xúc trong công việc/học tập, kèm nhãn Positive/Negative/Neutral. ● Quy mô: Tối thiểu 500 mẫu, lưu trong sentiment_data.csv. ● Định dạng mẫu: text,label "Hôm nay tôi đi làm muộn.","Negative" "Tôi vừa hoàn thành dự án!","Positive" ● Hướng dẫn: o Dùng code data.py (xem Phụ lục A) để xử lý dữ liệu. o Đảm bảo không có dòng trống trong CSV (kiểm tra bằng data.dropna()). Xây dựng mô hình Kiến trúc 1. Input: Văn bản qua Word Embeddings (100D) → Ma trận [số từ × 100]. 2. RNN: Khối RNN với 128 hidden units, xử lý chuỗi văn bản để tạo hidden state. 3. Dense: Tầng fully connected riêng biệt, nhận hidden state từ RNN và dự đoán 3 nhãn cảm xúc (Positive, Negative, Neutral). Mục đích của code ● Code data.py (Phụ lục A): Chuẩn bị dữ liệu đầu vào cho mô hình RNN, bao gồm tokenize, xây dựng từ điển, padding, và tạo DataLoader. Sinh viên chỉ cần chạy file này. ● Code model.py (Phụ lục B): Định nghĩa mô hình bao gồm khối RNN và tầng Dense để phân tích cảm xúc từ văn bản. Sinh viên cần hoàn thiện các phần trống. ● Code train_eval.py (Phụ lục C): Huấn luyện mô hình bằng SGD (không dùng Adam) và so sánh hiệu suất giữa Pretrained và Scratch embedding. Sinh viên cần hoàn thiện các phần trống.

o Cài đặt Python và thư viện theo "Yêu cầu môi trường". o Kiểm tra Torch hoạt động bằng lệnh cung cấp. 2. Chuẩn bị dữ liệu: o Tạo file sentiment_data.csv với ít nhất 500 mẫu theo định dạng mẫu. o Chạy data.py (Phụ lục A) để tạo train_loader và test_loader. o Kiểm tra len(vocab) để đồng bộ với vocab_size. 3. Hoàn thiện code: o Hoàn thiện model.py (Phụ lục B): Thêm embedding layer, khối RNN, tầng Dense trong __init__, viết hàm forward. o Hoàn thiện train_eval.py (Phụ lục C): Thêm loss function, optimizer SGD, các bước huấn luyện/đánh giá. o Kiểm tra: Chạy train_eval.py, đảm bảo results.json được tạo với Accuracy và F1-score. 4. Vẽ sơ đồ kiến trúc: o Dùng công cụ số (PowerPoint, Draw.io) vẽ sơ đồ: Embedding → RNN → Dense. o Ghi kích thước: Embedding (vocab_size × 100), RNN (100 → 128), Dense (128 → 3). o Minh họa luồng dữ liệu bằng mũi tên. 5. Viết báo cáo PDF: o Bao gồm lý thuyết, sơ đồ (đính kèm), thuyết minh, kết quả, nhận xét, và phụ lục với 3 file code đã hoàn thiện. o Đặt tên file: MSSV_Họ-tên_Seminar_HK2-2024-2025_TL. 6. Nộp bài: o Nộp file PDF đúng hạn qua hoctructuyen.sgu.edu.vn. Tài liệu tham khảo (APA) 1. Mikolov, T., Sutskever, I., Chen, K., Corrado, G., & Dean, J. (2013). Distributed representations of words and phrases and their compositionality. Advances in Neural Information Processing Systems, 26, 3111-3119. 2. Pennington, J., Socher, R., & Manning, C. D. (2014). GloVe: Global vectors for word representation. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), 1532-1543. https://doi.org/10.3115/v1/D14-1162 3. …

PDF Google Drive Downloader v1.1

Content text [Tiểu luận] Seminar chuyên đề (2024-2025 / HK2)

Related document

PDF Google Drive Downloader v1.1

Title [Tiểu luận] Seminar chuyên đề (2024-2025 / HK2) ✅

Content text [Tiểu luận] Seminar chuyên đề (2024-2025 / HK2)

Related document