Nội dung text Eura Vietnamese (Vietnam) Transcription Guidelines 2024 - ADAP QF
Eura Vietnamese Transcription Guidelines 2024
NOTE: All information provided in this document is confidential. Any publication, provision, or dissemination of this content is strictly prohibited. Do not share or post the contents on the internet. Eura Vietnamese (Vietnam) Transcription Guidelines Hướng Dẫn Phiên Âm Dự Án EURA Tiếng Việt (Việt Nam) Introduction Giới thiệu Project goal: The goal of this project is to transcribe audio files that will ultimately help our client build state of the art automatic speech recognition models. Mục tiêu dự án: Mục tiêu của dự án này là phiên âm các tệp âm thanh giúp khách hàng xây dựng các mô hình nhận diện giọng nói tự động hiện đại. The transcription box contains a pre-transcription. In this project, you will need to correct the transcription and add tags as needed, according to the following guidelines. The aim of this project is to accurately transcribe (i.e. type out or represent with pre-filled tags) the speech presented to you in audio files. You will be using our online transcription platform called "ADAP Quality Flow". A separate guide is provided for using ADAP Quality Flow. Hộp phiên âm đã có chứa sẵn bản phiên âm. Trong dự án này, bạn phải chỉnh sửa bản phiên âm và thêm các nhãn cần thiết vào theo tài liệu hướng dẫn dưới đây. Mục đích của dự án này là phiên âm chính xác (đánh máy ra hoặc trình bày bằng các thẻ được điền sẵn) tiếng nói được trình bày trong các tệp âm thanh. Bạn sẽ sử dụng nền tảng phiên âm trực tuyến có tên là “ADAP Quality Flow”. Bạn sẽ được cung cấp hướng dẫn riêng để sử dụng ADAP Quality Flow. Please read these guidelines in full and keep them handy when you start transcription. There are a lot of things to remember, but you will find it gets easier once you have done a few transcriptions. Vui lòng đọc toàn bộ các hướng dẫn này và giữ chúng bên mình khi bắt đầu thực hiện phiên âm. Có rất nhiều điều cần phải nhớ nhưng bạn sẽ thấy dễ dàng hơn một khi thực hiện xong vài bản phiên âm. Please use the present guidelines alongside the more specific speaker diarization guidelines available here as well. Vui lòng sử dụng tài liệu hướng dẫn này cùng với hướng dẫn chi tiết hơn về việc ghi nhật ký người nói có sẵn tại đây. If anything is unclear, please contact your project manager. Good luck! Nếu có gì không rõ, vui lòng liên hệ với quản lý dự án. Chúc bạn may mắn! 1
NOTE: All information provided in this document is confidential. Any publication, provision, or dissemination of this content is strictly prohibited. Do not share or post the contents on the internet. General information Thông tin chung 2
NOTE: All information provided in this document is confidential. Any publication, provision, or dissemination of this content is strictly prohibited. Do not share or post the contents on the internet. Speech, non-speech noise, and no-speech Tiếng nói, tiếng ồn không phải tiếng nói và không có tiếng nói The purpose of this project is to: - correct pre-filled transcriptions or transcribe from scratch - tag non-speech sounds which occur at the same time as speech - timestamp audio to capture continuous speech (ie. speech with pauses of less than 0.5 seconds) and track and identify speakers by adding timestamps at the start and end of each speaker turn. Mục đích của dự án này là: - chỉnh sửa bản ghi âm có sẵn hoặc phiên âm lại từ đầu. - gắn nhãn âm thanh không phải tiếng nói xuất hiện cùng lúc với tiếng nói - đánh dấu thời gian để xác định tiếng nói liên tục (tức là tiếng nói có khoảng ngừng ít hơn 0.5 giây) đồng thời theo dõi và nhận dạng người nói bằng cách thêm dấu thời gian vào đầu hoặc cuối mỗi lượt nói. Speech is anything which contains human language. In this project, we transcribe speech even if it is not grammatically correct — including: ● hesitations ("à", "ừm", “ừ”, “ờ”, “ơ”), ● colloquial words ("hem", "hoy"), and ● repeated words ("em em đã ăn tối rồi."). Tiếng nói là bất cứ thứ gì chứa ngôn ngữ của con người. Trong dự án này, chúng ta phiên âm tiếng nói kể cả khi nó không đúng ngữ pháp - gồm: ● từ ngập ngừng (“à”, “ừ”, “ờ”, ‘ơ”), ● từ thông tục (“hem”, “hoy”) ● từ lặp lại (“em em đã ăn tối rồi.”) Example Ví dụ ● TRANSCRIPTION: màu nóng như kiểu, ừm, đỏ, da cam, vàng. tôi thấy ● TRANSCRIPTION: hoy tôi đi nha. không nói chuyện nữa. Most speech is represented by words and characters. Some speech, however, is unintelligible and should be represented with pre-filled tags. Hầu hết tiếng nói được diễn đạt bằng các từ và ký tự. Tuy nhiên một số tiếng nói không thể hiểu được và cần phải trình bày bằng các nhãn được điền sẵn. 3