somosnlp-hackathon-2022/readability-es-3class-paragraphs

somosnlp-hackathon-2022
Clasificación de texto

Modelo basado en la arquitectura de Roberta afinado en BERTIN para la evaluación de la legibilidad de textos en español. Esta versión del modelo se entrenó con una mezcla de conjuntos de datos, utilizando la granularidad a nivel de oración cuando fue posible. El modelo clasifica entre tres niveles de complejidad: Básico, Intermedio y Avanzado. La relación de estas categorías con el Marco Común Europeo de Referencia para las Lenguas se describe en nuestro informe. Este modelo alcanza un puntaje promedio F1 macro de 0.7881, medido en el conjunto de validación.

Como usar

Para usar el modelo, puedes referirte a los detalles completos de los hiperparámetros y el régimen de entrenamiento en esta ejecución de entrenamiento. El modelo se puede desplegar en los Endpoints de Inferencia (dedicados).

Ejemplo de texto clasificado:

Las Líneas de Nazca son una serie de marcas trazadas en el suelo, cuya anchura oscila entre los 40 y los 110 centímetros.
Hace mucho tiempo, en el gran océano que baña las costas del Perú no había peces.

Funcionalidades

Clasificación de texto
Basado en Roberta
Afinado en BERTIN
Tres niveles de complejidad: Básico, Intermedio, Avanzado

Casos de uso

Evaluación de la legibilidad de textos en español
Clasificación de textos en niveles de complejidad
Usos educativos y pedagógicos para determinar la adecuación de textos a niveles específicos de habilidad lingüística