Identificación de Lenguaje con fastText

facebook

Clasificación de texto

fastText es una biblioteca de código abierto, gratuita y ligera que permite a los usuarios aprender representaciones de texto y clasificadores de texto. Funciona en hardware estándar y genérico. Los modelos pueden reducirse en tamaño para incluso caber en dispositivos móviles. Este modelo de identificación de idioma (LID) se utiliza para predecir el idioma del texto de entrada, y la versión alojada (lid218e) se lanzó como parte del proyecto NLLB y puede detectar 217 idiomas.

Como usar

import fasttext
from huggingface_hub import hf_hub_download

model_path = hf_hub_download(repo_id="facebook/fasttext-language-identification", filename="model.bin")
model = fasttext.load_model(model_path)
model.predict("Hello, world!")

(('__label__eng_Latn',), array([0.81148803]))

model.predict("Hello, world!", k=5)

(('__label__eng_Latn', '__label__vie_Latn', '__label__nld_Latn', '__label__pol_Latn', '__label__deu_Latn'), 
array([0.61224753, 0.21323682, 0.09696738, 0.01359863, 0.01319415]))

Funcionalidades

Biblioteca ligera y de código abierto
Capacidad para aprender representaciones de texto y clasificadores de texto
Funciona en hardware genérico
Modelos pueden ser reducidos para caber en dispositivos móviles
Puede identificar 217 idiomas

Casos de uso

Clasificación de texto
Identificación de idioma de textos