LocalDoc/language_detection

LocalDoc
Clasificación de texto

Este repositorio contiene un modelo de detección de idiomas multilingüe basado en la arquitectura XLM-RoBERTa base. El modelo es capaz de distinguir entre 21 idiomas diferentes incluyendo árabe, azerbaiyano, búlgaro, alemán, griego, inglés, español, francés, hindi, italiano, japonés, holandés, polaco, portugués, ruso, suajili, tailandés, turco, urdu, vietnamita y chino.

Como usar

Puedes usar este modelo directamente con un pipeline para clasificación de textos, o puedes usarlo con la biblioteca transformers para un uso más personalizado, como se muestra en el ejemplo a continuación.

# Primero, instala la biblioteca transformers si no lo has hecho ya:
pip install transformers

from transformers import AutoModelForSequenceClassification, XLMRobertaTokenizer
import torch

# Cargar el tokenizador y el modelo
tokenizer = XLMRobertaTokenizer.from_pretrained("LocalDoc/language_detection")
model = AutoModelForSequenceClassification.from_pretrained("LocalDoc/language_detection")

# Preparar el texto
text = "Əlqasım oğulları vorzakondu"
encoded_input = tokenizer(text, return_tensors='pt', truncation=True, max_length=512)

# Predicción
model.eval()
with torch.no_grad():
outputs = model(**encoded_input)

# Procesar las salidas
logits = outputs.logits
probabilities = torch.nn.functional.softmax(logits, dim=-1)
predicted_class_index = probabilities.argmax().item()
labels = ["az", "ar", "bg", "de", "el", "en", "es", "fr", "hi", "it", "ja", "nl", "pl", "pt", "ru", "sw", "th", "tr", "ur", "vi", "zh"]
predicted_label = labels[predicted_class_index]
print(f"Idioma Predicho: {predicted_label}")

Funcionalidades

Detección de idiomas multilingüe
Basado en la arquitectura XLM-RoBERTa
Capacidad de detectar 21 idiomas diferentes
Compatible con AutoTrain
Compatible con Endpoints de Inferencia

Casos de uso

Detección automática del idioma de un texto
Clasificación de textos por idioma
Preparación de datos multilingües para análisis
Filtrado de contenido según el idioma
Soporte en aplicaciones multilingües