a smol course documentation
Evaluación
Evaluación
La evaluación es un paso crítico en el desarrollo y despliegue de modelos de lenguaje. Nos permite entender qué tan bien funcionan nuestros modelos en diferentes capacidades e identificar áreas de mejora. Este módulo cubre tanto los “becnhmarks” estándares como los enfoques de evaluación específicos para evaluar de manera integral tu modelo smol.
Usaremos lighteval, una poderosa biblioteca de evaluación desarrollada por Hugging Face que se integra perfectamente con el ecosistema de Hugging Face. Para una explicación más detallada sobre los conceptos y mejores prácticas de evaluación, consulta la guía de evaluación.
Descripción del Módulo
Una estrategia de evaluación completa examina múltiples aspectos del rendimiento del modelo. Evaluamos capacidades específicas en tareas como responder preguntas y resumir textos, para entender cómo el modelo maneja diferentes tipos de problemas. Medimos la calidad del “output” mediante factores como coherencia y precisión. A su vez, la evaluación de seguridad ayuda a identificar posibles “outputs” dañinas o sesgos. Finalmente, las pruebas de experticia en áreas especfícios verifican el conocimiento especializado del modelo en tu campo objetivo.
Contenidos
1️⃣ Evaluaciones Automáticas
Aprende a evaluar tu modelo utilizando “benchmarks” y métricas estandarizadas. Exploraremos “benchmarks” comunes como MMLU y TruthfulQA, entenderemos las métricas clave de evaluación y configuraciones, y cubriremos mejores prácticas para una evaluación reproducible.
2️⃣ Evaluación Personalizada en un Dominio
Descubre cómo crear flujos de evaluación adaptados a tus casos de uso específicos. Te guiaremos en el diseño de tareas de evaluación personalizadas, la implementación de métricas especializadas y la construcción de conjuntos de datos de evaluación que se ajusten a tus necesidades.
3️⃣ Proyecto de Evaluación en un Dominio
Sigue un ejemplo completo de cómo construir un flujo de evaluación específico para un dominio. Aprenderás a generar conjuntos de datos de evaluación, usar Argilla para la anotación de datos, crear conjuntos de datos estandarizados y evaluar modelos utilizando LightEval.
Recursos
- Guía de Evaluación - Guía completa para la evaluación de modelos de lenguaje
- Documentación de LightEval - Documentación oficial de la biblioteca LightEval
- Documentación de Argilla - Aprende sobre la plataforma de anotación Argilla
- Paper de MMLU - Artículo sobre el benchmark MMLU
- Crear una Tarea Personalizada
- Crear una Métrica Personalizada
- Usar métricas existentes