simoneteglia/xlm-roberta-europarl-language-detection

simoneteglia

Clasificación de texto

Este modelo es una versión ajustada de xlm-roberta-base en el conjunto de datos de detección de idioma Europarl. Alcanza los siguientes resultados en el conjunto de evaluación: - Pérdida: 0.0237 - Precisión: 0.9967 - F1: 0.9967

Como usar

Los siguientes hiperparámetros se utilizaron durante el entrenamiento:

Tasa de aprendizaje: 1e-05
Tamaño del lote de entrenamiento: 256
Tamaño del lote de evaluación: 512
Semilla: 42
Optimizador: Adam con betas=(0.9,0.999) y epsilon=1e-08
Tipo de programador de tasa de aprendizaje: lineal
Número de épocas: 2
Entrenamiento de precisión mixta: AMP nativo

# Resultados del entrenamiento

| Pérdida de Entrenamiento | Época | Paso | Pérdida de Validación | Precisión | F1 |
|-------------------------|-------|------|----------------------|-----------|----|
| No hay registro         | 1.0   | 821  | 0.0270               | 0.9965    | 0.9965 |
| 0.2372                  | 2.0   | 1642 | 0.0237               | 0.9967    | 0.9967 |

# Versiones del Framework
- **Transformers:** 4.28.0
- **Pytorch:** 2.0.0
- **Datasets:** 2.1.0
- **Tokenizers:** 0.13.3

Funcionalidades

Clasificación de texto
Transformers
PyTorch
TensorBoard
Safetensors
Compatible con AutoTrain
Compatible con Endpoints de Inferencia

Casos de uso

Detección de lenguaje en textos
Clasificación de documentos multilingües
Integración en sistemas de procesamiento de lenguaje natural