ERCDiDip/langdetect

ERCDiDip

Clasificación de texto

Este modelo es una versión ajustada de xlm-roberta-base en el conjunto de datos monasterium.net. En la parte superior de este modelo transformer XLM-RoBERTa se encuentra una cabeza de clasificación. Puede utilizar este modelo directamente como un detector de idiomas, es decir, para tareas de clasificación de secuencias. Actualmente, soporta 41 idiomas, tanto modernos como medievales. El modelo fue ajustado utilizando los conjuntos de datos Monasterium y Wikipedia, que consisten en secuencias de texto en 41 idiomas. El conjunto de entrenamiento contiene 80k muestras, mientras que los conjuntos de validación y prueba contienen 16k. La precisión promedio en el conjunto de prueba es del 99.59% (esto coincide con el puntaje F1 promedio macro/ponderado, siendo el conjunto de prueba perfectamente equilibrado).

Como usar

#Instalar paquetes
!pip install transformers --quiet

#Importar bibliotecas
import torch
from transformers import pipeline

#Definir pipeline
classificator = pipeline("text-classification", model="ERCDiDip/langdetect")

#Usar pipeline
classificator("clemens etc dilecto filio scolastico ecclesie wetflari ensi treveren dioc salutem etc significarunt nobis dilecti filii commendator et fratres hospitalis beate marie theotonicorum")

Funcionalidades

Clasificación de texto
Transformers
PyTorch
Safetensors
doi:10.57967/hf/0135
xlm-roberta
Compatibilidad con AutoTrain
Compatibilidad con Endpoints

Casos de uso

Detección de idioma
Clasificación de secuencias de texto
Análisis de texto multilingüe
Estudio de lenguajes modernos y medievales