Cypher Evals Revamp Cheat Sheet Vietnamese 20250317

Nội dung text Cypher Evals Revamp Cheat Sheet Vietnamese 20250317

Key Updates 20250317
Cypher Evals Revamp Instructions Cheat Sheet (Vietnamese) Change Log: Nội dung Ngày cập nhật Ai mần Cập nhật đánh giá TF với response chứa Gibberish (Edge case #6) 09/04/2025 Thuyen_QM_VN Cập nhật cách đánh giá TF với trường hợp Cut-off task (mục Edge Case Evals: #7 và #8) 04/04/2025 Thuyen_QM_VN Cập nhật mục Các lỗi thường gặp (sẽ có cập nhật thêm) 04/04/2025 Thuyen_QM_VN Cập nhật đánh giá IF & TF khi model lấy thông tin bên ngoài và thông tin đúng nhưng không thông báo cho user 28/03/2025 Thuyen_QM_VN Sắp xếp lại outline cheat sheet IF và TF tách thành mục riêng & giải thích rõ hơn & slightly rewording định nghĩa Core Requirement Accuracy Bổ sung, giải nghĩa thêm các hướng dẫn Cập nhật Lưu ý chung khi đánh giá (Key Updates II.) Cập nhật đánh giá Latex 27/03/2025 AnhDo_QM_VN Thuyen_QM_VN Cập nhật thêm các khía cạnh đánh giá Truthfulness, cách phân biệt IF và TF 25/03/2025 Thuyen_QM_VN Cách phân biệt tiêu chí “natural” trong Localization (Language) và “natural” trong Tone giọng (Structure, Writing Style & Tone) 25/03/2025 Thuyen_QM_VN Cập nhật đánh giá IF và TF với dạng task Extraction 25/03/2025 Thuyen_QM_VN Cập nhật đánh giá IF và Response Length khi prompt có constraint về độ dài (word limit/length limit) 21/03/2025 Thuyen_QM_VN Tạo tài liệu 17/03/2025 QM Team Cập nhật Revamp Instructions Phần này cập nhật những thay đổi về Instructions dự án Cypher Evals từ ngày 17/03/2025. Xem thêm chi tiết tại Video hướng dẫn này. Xem instructions đầy đủ tại Cypher Evals Revamp Instructions Doc (lưu ý: Chỉ dùng bản Revamp này, không dùng các bản cũ)
I. Cập nhật chính 1.1. Các yếu tố liên quan đến Ngôn ngữ (Language) sẽ đánh giá ở Localization Ngoài các yếu tố Local (văn hoá, phong tục tập quán, luật pháp, over/underspecification,...), Localization cũng đánh giá các yếu tố về ngôn ngữ, bao gồm: ● Spelling, Grammar, Word choice (Chính tả, Ngữ pháp, Từ vựng) ● Punctuation (Dấu câu) ● Awkward or unnatural writing (Diễn đạt kỳ cục, thiếu tự nhiên) ● Wrong Language: Response viết bằng tiếng nước khác hoặc dùng từ nước ngoài trong khi prompt không yêu cầu và hoàn toàn có từ tiếng Việt thay thế phù hợp, không cần thiết phải dùng từ nước ngoài ● Gibberish (Ký tự vô nghĩa): Response chứa nhiều ký tự hỗn hợp (ví dụ ****, #$%^&%%,...) hoặc lặp đi lặp lại một từ hoặc câu nào đó đến hết response. 1.2. Writing Style & Tone đổi thành Structure, Writing Style, and Tone Dimension này đánh giá giọng điệu và phần nhìn của response, bao gồm: định dạng, cách trình bày (visual presentation), cấu trúc. Ví dụ: ● Response chia đoạn để trình bày nội dung một cách logic thay vì viết một đoạn dài từ đầu đến cuối rất khó đọc ● Dùng bullet point, số thứ tự, in đậm hoặc những kiểu định dạng khác để nâng cao hiệu quả trình bày và highlight thông tin quan trọng ● Tone giọng tự nhiên, phù hợp với prompt 1.3. Instruction Following tập trung vào câu hỏi: Did the response satisfy all constraints in the prompt? IF phải đánh giá xem response có thực hiện yêu cầu của prompt một cách hiệu quả, có trả lời đúng câu hỏi của prompt và thoả mãn các constraint hay không, chứ không đơn thuần là chỉ nỗ lực thực hiện. Tập trung vào câu hỏi: Did the response satisfy all constraints in the prompt?/ Does the response successfully do what is asked? 1.4. Overall Score đổi thành Overall Satisfaction Score Tập trung hơn vào user satisfaction, không tập trung vào việc đếm lỗi như trước đây. Tức là dù phản hồi có lỗi nhưng nhìn chung vẫn đáp ứng yêu cầu và làm hài lòng user thì có thể chấm điểm rộng rãi hơn. Trường hợp phản hồi không có lỗi rõ ràng nhưng không làm hài lòng và đáp
ứng mong đợi từ user thì có thể trừ điểm nhẹ. Đặt câu hỏi: Nếu bạn là người đặt prompt, bạn sẽ cảm thấy thế nào khi nhận được response đó? (*) Hãy đảm bảo rằng bạn đánh giá mức độ hài lòng với mỗi response một cách độc lập và khách quan, không so sánh với response khác khi cho điểm Overall Satisfaction. 1.5. Pleasantries trừ điểm ở Response Length Pleasantries ảnh hưởng đến Speed to answer và gây xao nhãng. Pleasantry ngắn có tính chất xác nhận (validate) yêu cầu của user thì được phép dùng. Pleasantry dài dòng gây mất tập trung sẽ bị đánh lỗi. Ví dụ: ● Chắc chắn rồi, dưới đây là 5 ý tưởng (Sure, here are five options): Not a pleasantry ● Tôi hy vọng thông tin này hữu ích (I hope this helps): Pleasantry Xem thêm ví dụ trong Instructions Doc (mục What’s the deal with pleasantries?) (*) Lưu ý: Không có quy định cụ thể về số lượng pleasantry dẫn đến Major Issues Response Length. Nên đánh giá dựa trên tổng thể response. 1.6. Đánh giá IF và RL với constraint về số lượng từ Xem chi tiết bảng Special Note on Prompt Length Limits trong Instructions Doc. Cập nhật 21/3/2025: Nếu response có lỗi IF vì không đáp ứng constraint về độ dài, Response Length cũng sẽ đánh lỗi. Prompt yêu cầu “trong khoảng/khoảng XXX từ” ● Nhiều hơn hoặc ít hơn trong khoảng 10% ⇒ No Issues ● Nhiều hơn hoặc ít hơn trong khoảng 10-20% ⇒ Minor Issues ● Nhiều hơn hoặc ít hơn quá 20% ⇒ Major Issues Prompt yêu cầu “trong/trong vòng XXX từ” ● Vượt quá số từ trong khoảng 5% ⇒ No Issues ● Vượt quá số từ trong khoảng 5-10% ⇒ Minor Issues ● Vượt quá số từ trên 10% ⇒ Major Issues ● Ngắn hơn số từ yêu cầu ⇒ No Issues, trừ khi prompt có yêu cầu số từ tối thiểu hoặc response ngắn dẫn tới trả lời thiếu ý được hỏi ⇒ trừ điểm IF và Response Length (Short) Prompt yêu cầu nghiêm ngặt về số từ với sự nhấn mạnh rõ ràng trong constraint:

PDF Google Drive Downloader v1.1

Nội dung text Cypher Evals Revamp Cheat Sheet Vietnamese 20250317

Tài liệu liên quan

PDF Google Drive Downloader v1.1

Tiêu đề Cypher Evals Revamp Cheat Sheet Vietnamese 20250317 ✅

Nội dung text Cypher Evals Revamp Cheat Sheet Vietnamese 20250317

Tài liệu liên quan