Content text Instrucciones de SxS Extensions Evals (i18n)
Instrucciones de SxS Extensions Evals (i18n) Gen AI | Bulba | Extensions | es-ES & es-419 | 08/08/2024 Descripción general Para esta tarea, se le proporciona un prompt y dos respuestas, que incluyen Tools Code Outputs y la respuesta del chatbot correspondiente. Por cada respuesta del chatbot , se te pide que califiques cómo bien cumple con la solicitud del usuario y cómo correcta es en términos de hechos, facts, según los resultados del Tools Code Outputs proporcionados. Flujo de trabajo ★ Lee el prompt ★ Revisa las 2 respuestas ★ Califica cada respuesta en función de 3 dimensiones: ● Target Language (Idioma esperado) ● Fulfillment Rating (Calificación de satisfacción) ● Factuality Rating (Calificación de factualidad) ★ Elije la mejor respuesta general según los parámetros anteriores. ★ Proporciona una justificación de por qué crees que es mejor basándote principalmente en las dimensiones que has evaluado y, en segundo lugar, en tu preferencia.
Anatomía de una tarea
Target Language (Idioma esperado) 🎯 Esta pregunta evalúa si la respuesta está en el idioma correcto según la prompt. La respuesta no siempre estará en el mismo idioma que el mensaje, dependiendo de la solicitud. Por ejemplo, si el mensaje de usuario está en coreano, la respuesta también debería estar en coreano. Sin embargo, si el mensaje del usuario está en coreano y solicita una traducción al inglés, entonces una respuesta en inglés debe marcarse como correcta.
Fulfillment Rating (Calificación de satisfacción) 🎯 Esta pregunta evalúa lo bien la respuesta de Bard satisface la solicitud del usuario. Rating Descripción Completely (3/3) La respuesta proporciona el tipo correcto de información solicitada por el mensaje. Partially (2/3) Si se aplica uno de los siguientes: ● La respuesta proporciona el tipo correcto de información para una parte del mensaje, pero no para todo. ○ Ejemplo: la solicitud pedía información sobre Vuelos y Hoteles, pero la respuesta solo daba información sobre Vuelos. ● La respuesta es una tool punt porque las llamadas Tools Code Output no dan resultados (también conocido como devuelve varias consultas "none"). ○ La respuesta DEBE mencionar que no pudo encontrar información para la solicitud. Not At All (1/3) Si se aplica uno o más de los siguientes: ● La respuesta no proporciona el tipo correcto de información solicitada por el mensaje. ● La respuesta contiene una punt genérica (por ejemplo, “sólo soy un modelo de texto...”). ● La Tools Code Output no ha devuelto resultados, pero la respuesta proporciona información de todos modos (a esto lo llamamos " alucinación" ). ● La Tools Code Output es un error (texto rojo), está vacía , o falta. Factuality Rating (Calificación de la Factulidad) 🎯 Esta pregunta evalúa lo precisa que es la respuesta final dado el Tools Code Outputs. Consulta los Tools Code Outputs para ver qué información hay sobre precios, distancias, duraciones, enlaces URL y más. 🚨La información externa NO DEBE usarse para medir la precisión de las respuestas!! Juzga únicamente la precisión de la respuesta basándote en la información proporcionada en los resultados del Tools Code Outputs.. 🚨 Siga los criterios a continuación para calificar las respuestas: