bert-base-multilingual-cased-language-detection

jb2k
Clasificación de texto

Este modelo fue creado afinando el modelo bert-base-multilingual-cased en el dataset de lenguajes comunes. Este dataset tiene soporte para 45 idiomas.

Como usar

import transformers

modelo = transformers.AutoModelForSequenceClassification.from_pretrained("jb2k/bert-base-multilingual-cased-language-detection")
tokenizador = transformers.AutoTokenizer.from_pretrained("jb2k/bert-base-multilingual-cased-language-detection")

texto = "Me gusta tu estilo."
entradas = tokenizador(texto, return_tensors="pt")
salidas = modelo(**entradas)

Funcionalidades

Detección de idioma
Soporte para 45 lenguas
Afinado con el dataset de lenguajes comunes
Precisión del 97.8% en el conjunto de prueba

Casos de uso

Detección automática de lenguajes en textos
Clasificación de textos según el idioma