Identificación de Lenguaje con fastText
facebook
Clasificación de texto
fastText es una biblioteca de código abierto, gratuita y ligera que permite a los usuarios aprender representaciones de texto y clasificadores de texto. Funciona en hardware estándar y genérico. Los modelos pueden reducirse en tamaño para incluso caber en dispositivos móviles. Este modelo de identificación de idioma (LID) se utiliza para predecir el idioma del texto de entrada, y la versión alojada (lid218e) se lanzó como parte del proyecto NLLB y puede detectar 217 idiomas.
Como usar
import fasttext
from huggingface_hub import hf_hub_download
model_path = hf_hub_download(repo_id="facebook/fasttext-language-identification", filename="model.bin")
model = fasttext.load_model(model_path)
model.predict("Hello, world!")
(('__label__eng_Latn',), array([0.81148803]))
model.predict("Hello, world!", k=5)
(('__label__eng_Latn', '__label__vie_Latn', '__label__nld_Latn', '__label__pol_Latn', '__label__deu_Latn'),
array([0.61224753, 0.21323682, 0.09696738, 0.01359863, 0.01319415]))
Funcionalidades
- Biblioteca ligera y de código abierto
- Capacidad para aprender representaciones de texto y clasificadores de texto
- Funciona en hardware genérico
- Modelos pueden ser reducidos para caber en dispositivos móviles
- Puede identificar 217 idiomas
Casos de uso
- Clasificación de texto
- Identificación de idioma de textos