xlm-roberta-base-language-detection
eleldar
Clasificación de texto
Este modelo es una versión ajustada del xlm-roberta-base en el conjunto de datos de Identificación de Idioma. Es un modelo transformer XLM-RoBERTa con una cabeza de clasificación en la parte superior (es decir, una capa lineal en la salida agrupada). Para información adicional, consulte la tarjeta de modelo xlm-roberta-base o el artículo 'Unsupervised Cross-lingual Representation Learning at Scale' de Conneau et al.
Como usar
Puedes usar directamente este modelo como un detector de idioma, es decir, para tareas de clasificación de secuencia. Actualmente, soporta los siguientes 20 idiomas:
- árabe (ar)
- búlgaro (bg)
- alemán (de)
- griego moderno (el)
- inglés (en)
- español (es)
- francés (fr)
- hindi (hi)
- italiano (it)
- japonés (ja)
- holandés (nl)
- polaco (pl)
- portugués (pt)
- ruso (ru)
- suajili (sw)
- tailandés (th)
- turco (tr)
- urdu (ur)
- vietnamita (vi)
- chino (zh)
# Código de uso
from transformers import pipeline
model_name = 'eleldar/language-detection'
language_detector = pipeline(task='text-classification', model=model_name)
text = 'I like you. I love you'
result = language_detector(text)
print(result)
Funcionalidades
- Detección de idioma
- Modelo transformer XLM-RoBERTa
- Cabeza de clasificación con una capa lineal
- Soporte para 20 idiomas
Casos de uso
- Detección automática de idiomas en aplicaciones multilingües
- Clasificación de secuencias según el idioma
- Preprocesamiento de datos para modelos multilingües