Nội dung text Chuẩn hóa văn bản.pdf
Chuẩn hóa văn bản Text Normalization Lemmatization Đưa về dạng từ gốc Tách câu (sentence segmentation) Chia văn bản thành các câu Stemming Cắt hậu tố khỏi từ. Ít được sử dụng hơn Lemmatization Chuẩn hóa văn bản là một chuỗi việc chuyển văn bản sang dạng chuẩn, thuận tiện để sử dụng trong các bài toán khác nhau Tách token (Tokenization) Chia văn bản thành các token Lọc stop words Lọc những từ hay xuất hiện và ít ngữ nghĩa như "the", "is", "at", "which", và "on" Sửa sai từ (Word Correction) Sai thứ tự chữ trong từ Tiếng Anh hoặc sai dấu trong Tiểng Việt