somosnlp-hackathon-2022/readability-es-3class-paragraphs
Modelo basado en la arquitectura de Roberta afinado en BERTIN para la evaluación de la legibilidad de textos en español. Esta versión del modelo se entrenó con una mezcla de conjuntos de datos, utilizando la granularidad a nivel de oración cuando fue posible. El modelo clasifica entre tres niveles de complejidad: Básico, Intermedio y Avanzado. La relación de estas categorías con el Marco Común Europeo de Referencia para las Lenguas se describe en nuestro informe. Este modelo alcanza un puntaje promedio F1 macro de 0.7881, medido en el conjunto de validación.
Como usar
Para usar el modelo, puedes referirte a los detalles completos de los hiperparámetros y el régimen de entrenamiento en esta ejecución de entrenamiento. El modelo se puede desplegar en los Endpoints de Inferencia (dedicados).
Ejemplo de texto clasificado:
Las Líneas de Nazca son una serie de marcas trazadas en el suelo, cuya anchura oscila entre los 40 y los 110 centímetros.
Hace mucho tiempo, en el gran océano que baña las costas del Perú no había peces.
Funcionalidades
- Clasificación de texto
- Basado en Roberta
- Afinado en BERTIN
- Tres niveles de complejidad: Básico, Intermedio, Avanzado
Casos de uso
- Evaluación de la legibilidad de textos en español
- Clasificación de textos en niveles de complejidad
- Usos educativos y pedagógicos para determinar la adecuación de textos a niveles específicos de habilidad lingüística