GlotLID
cis-lmu
Clasificación de texto
GlotLID es un modelo de identificación de idiomas de Fasttext que admite más de 2000 etiquetas. Última versión: GlotLID ahora está actualizado a V3. V3 admite 2102 etiquetas (códigos ISO de tres letras con script). Para obtener más detalles sobre los idiomas admitidos y el rendimiento, así como cambios significativos de versiones anteriores, consulte https://github.com/cisnlp/GlotLID/blob/main/languages-v3.md.
Como usar
Aquí se explica cómo usar este modelo para detectar el idioma de un texto dado:
import fasttext
from huggingface_hub import hf_hub_download
# model.bin siempre es la última versión
model_path = hf_hub_download(repo_id="cis-lmu/glotlid", filename="model.bin")
model = fasttext.load_model(model_path)
model.predict("Hello, world!")
Si no te gusta usar huggingface_hub, descárgalo directamente:
! wget https://huggingface.co/cis-lmu/glotlid/resolve/main/model.bin
import fasttext
model = fasttext.load_model("/path/to/model.bin")
model.predict("Hello, world!")
Funcionalidades
- Identificación de idiomas
- Admite más de 2000 etiquetas
- Última versión V3 con 2102 etiquetas
- Códigos ISO de tres letras con script
Casos de uso
- Identificación de lenguajes en textos
- Análisis de corpora multilingües
- Mejora de precisión en sistemas de procesamiento de lenguaje natural