Clasificador de 51 idiomas

qanastek

Clasificación de texto

El modelo 'qanastek/51-languages-classifier' es un clasificador de texto que utiliza Transformers y PyTorch para identificar y clasificar textos en 51 idiomas diferentes. El modelo se basa en XLM-Roberta y se entrena con el conjunto de datos MASSIVE, que contiene más de 1 millón de enunciados paralelos para tareas de comprensión del lenguaje natural, como la predicción de intenciones y la anotación de ranuras.

Como usar

from transformers import AutoTokenizer, AutoModelForSequenceClassification, TextClassificationPipeline
model_name = 'qanastek/51-languages-classifier'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)
classifier = TextClassificationPipeline(model=model, tokenizer=tokenizer)
res = classifier("פרק הבא בפודקאסט בבקשה")
print(res)

Funcionalidades

Clasificación de textos en 51 idiomas distintos
Basado en el modelo XLM-Roberta
Entrenado con el conjunto de datos MASSIVE
Soporte para tareas de predicción de intenciones y anotación de ranuras

Casos de uso

Identificación de idiomas en textos
Clasificación de documentos multilingües
Análisis de textos en aplicaciones de asistentes de voz
Predicción de intenciones en interacción con usuarios