LocalDoc/language_detection
LocalDoc
Clasificación de texto
Este repositorio contiene un modelo de detección de idiomas multilingüe basado en la arquitectura XLM-RoBERTa base. El modelo es capaz de distinguir entre 21 idiomas diferentes incluyendo árabe, azerbaiyano, búlgaro, alemán, griego, inglés, español, francés, hindi, italiano, japonés, holandés, polaco, portugués, ruso, suajili, tailandés, turco, urdu, vietnamita y chino.
Como usar
Puedes usar este modelo directamente con un pipeline para clasificación de textos, o puedes usarlo con la biblioteca transformers para un uso más personalizado, como se muestra en el ejemplo a continuación.
# Primero, instala la biblioteca transformers si no lo has hecho ya:
pip install transformers
from transformers import AutoModelForSequenceClassification, XLMRobertaTokenizer
import torch
# Cargar el tokenizador y el modelo
tokenizer = XLMRobertaTokenizer.from_pretrained("LocalDoc/language_detection")
model = AutoModelForSequenceClassification.from_pretrained("LocalDoc/language_detection")
# Preparar el texto
text = "Əlqasım oğulları vorzakondu"
encoded_input = tokenizer(text, return_tensors='pt', truncation=True, max_length=512)
# Predicción
model.eval()
with torch.no_grad():
outputs = model(**encoded_input)
# Procesar las salidas
logits = outputs.logits
probabilities = torch.nn.functional.softmax(logits, dim=-1)
predicted_class_index = probabilities.argmax().item()
labels = ["az", "ar", "bg", "de", "el", "en", "es", "fr", "hi", "it", "ja", "nl", "pl", "pt", "ru", "sw", "th", "tr", "ur", "vi", "zh"]
predicted_label = labels[predicted_class_index]
print(f"Idioma Predicho: {predicted_label}")
Funcionalidades
- Detección de idiomas multilingüe
- Basado en la arquitectura XLM-RoBERTa
- Capacidad de detectar 21 idiomas diferentes
- Compatible con AutoTrain
- Compatible con Endpoints de Inferencia
Casos de uso
- Detección automática del idioma de un texto
- Clasificación de textos por idioma
- Preparación de datos multilingües para análisis
- Filtrado de contenido según el idioma
- Soporte en aplicaciones multilingües