xlm-roberta-base-language-detection

eleldar

Clasificación de texto

Este modelo es una versión ajustada del xlm-roberta-base en el conjunto de datos de Identificación de Idioma. Es un modelo transformer XLM-RoBERTa con una cabeza de clasificación en la parte superior (es decir, una capa lineal en la salida agrupada). Para información adicional, consulte la tarjeta de modelo xlm-roberta-base o el artículo 'Unsupervised Cross-lingual Representation Learning at Scale' de Conneau et al.

Como usar

Puedes usar directamente este modelo como un detector de idioma, es decir, para tareas de clasificación de secuencia. Actualmente, soporta los siguientes 20 idiomas:

árabe (ar)
búlgaro (bg)
alemán (de)
griego moderno (el)
inglés (en)
español (es)
francés (fr)
hindi (hi)
italiano (it)
japonés (ja)
holandés (nl)
polaco (pl)
portugués (pt)
ruso (ru)
suajili (sw)
tailandés (th)
turco (tr)
urdu (ur)
vietnamita (vi)
chino (zh)

# Código de uso
from transformers import pipeline

model_name = 'eleldar/language-detection'
language_detector = pipeline(task='text-classification', model=model_name)

text = 'I like you. I love you'
result = language_detector(text)
print(result)

Funcionalidades

Detección de idioma
Modelo transformer XLM-RoBERTa
Cabeza de clasificación con una capa lineal
Soporte para 20 idiomas

Casos de uso

Detección automática de idiomas en aplicaciones multilingües
Clasificación de secuencias según el idioma
Preprocesamiento de datos para modelos multilingües