roberta-base-es-wikicat-es

PlanTL-GOB-ES

Clasificación de texto

El roberta-base-es-wikicat-es es un modelo de clasificación de texto para el idioma catalán afinado a partir del modelo roberta-base-bne, un modelo base de RoBERTa preentrenado con un corpus de tamaño medio recogido de corpus públicos disponibles y rastreadores. Este modelo puede ser utilizado para clasificar textos. Está limitado por su conjunto de datos de entrenamiento y puede no generalizar bien para todos los casos de uso. A la fecha de presentación, no se han tomado medidas para estimar el sesgo incrustado en el modelo. Sin embargo, somos conscientes de que nuestros modelos pueden estar sesgados dado que los corpus han sido recopilados utilizando técnicas de rastreo en múltiples fuentes web. Tenemos la intención de realizar investigaciones en estas áreas en el futuro, y si se completan, esta tarjeta del modelo será actualizada.

Como usar

from transformers import pipeline
from pprint import pprint
nlp = pipeline("text-classification", model="roberta-base-es-wikicat-es")
ejemplo = "Sedna es el cuerpo menor del sistema solar número 90377; concretamente es un objeto transneptuniano."
resultados_tc = nlp(ejemplo)
pprint(resultados_tc)

Funcionalidades

Clasificación de textos
Basado en la arquitectura RoBERTa
Afinado con el corpus WikiCAT_esv2
Implementado con Transformers y PyTorch

Casos de uso

Clasificación de textos en catalán
Aplicaciones de análisis de contenido en redes sociales
Herramientas de gestión de información y documentos