GlotLID

cis-lmu
Clasificación de texto

GlotLID es un modelo de identificación de idiomas de Fasttext que admite más de 2000 etiquetas. Última versión: GlotLID ahora está actualizado a V3. V3 admite 2102 etiquetas (códigos ISO de tres letras con script). Para obtener más detalles sobre los idiomas admitidos y el rendimiento, así como cambios significativos de versiones anteriores, consulte https://github.com/cisnlp/GlotLID/blob/main/languages-v3.md.

Como usar

Aquí se explica cómo usar este modelo para detectar el idioma de un texto dado:

import fasttext
from huggingface_hub import hf_hub_download

# model.bin siempre es la última versión
model_path = hf_hub_download(repo_id="cis-lmu/glotlid", filename="model.bin")
model = fasttext.load_model(model_path)
model.predict("Hello, world!")

Si no te gusta usar huggingface_hub, descárgalo directamente:

! wget https://huggingface.co/cis-lmu/glotlid/resolve/main/model.bin
import fasttext

model = fasttext.load_model("/path/to/model.bin")
model.predict("Hello, world!")

Funcionalidades

Identificación de idiomas
Admite más de 2000 etiquetas
Última versión V3 con 2102 etiquetas
Códigos ISO de tres letras con script

Casos de uso

Identificación de lenguajes en textos
Análisis de corpora multilingües
Mejora de precisión en sistemas de procesamiento de lenguaje natural