ERCDiDip/langdetect
Este modelo es una versión ajustada de xlm-roberta-base en el conjunto de datos monasterium.net. En la parte superior de este modelo transformer XLM-RoBERTa se encuentra una cabeza de clasificación. Puede utilizar este modelo directamente como un detector de idiomas, es decir, para tareas de clasificación de secuencias. Actualmente, soporta 41 idiomas, tanto modernos como medievales. El modelo fue ajustado utilizando los conjuntos de datos Monasterium y Wikipedia, que consisten en secuencias de texto en 41 idiomas. El conjunto de entrenamiento contiene 80k muestras, mientras que los conjuntos de validación y prueba contienen 16k. La precisión promedio en el conjunto de prueba es del 99.59% (esto coincide con el puntaje F1 promedio macro/ponderado, siendo el conjunto de prueba perfectamente equilibrado).
Como usar
#Instalar paquetes
!pip install transformers --quiet
#Importar bibliotecas
import torch
from transformers import pipeline
#Definir pipeline
classificator = pipeline("text-classification", model="ERCDiDip/langdetect")
#Usar pipeline
classificator("clemens etc dilecto filio scolastico ecclesie wetflari ensi treveren dioc salutem etc significarunt nobis dilecti filii commendator et fratres hospitalis beate marie theotonicorum")
Funcionalidades
- Clasificación de texto
- Transformers
- PyTorch
- Safetensors
- doi:10.57967/hf/0135
- xlm-roberta
- Compatibilidad con AutoTrain
- Compatibilidad con Endpoints
Casos de uso
- Detección de idioma
- Clasificación de secuencias de texto
- Análisis de texto multilingüe
- Estudio de lenguajes modernos y medievales