unicamp-dl/mMiniLM-L6-v2-mmarco-v2

unicamp-dl

Clasificación de texto

mMiniLM-L6-v2-mmarco-v2 es un modelo multilingüe basado en miniLM afinado en una versión multilingüe del conjunto de datos de pasajes de MS MARCO. Este conjunto de datos, llamado mMARCO, está formado por pasajes en 9 idiomas diferentes, traducidos de la colección de pasajes de MS MARCO en inglés. En la versión v2, los conjuntos de datos fueron traducidos utilizando Google Translate. Más información sobre el conjunto de datos o el método de traducción se puede encontrar en nuestro mMARCO: A Multilingual Version of MS MARCO Passage Ranking Dataset y el repositorio de mMARCO.

Como usar

from transformers import AutoTokenizer, AutoModel

model_name = 'unicamp-dl/mMiniLM-L6-v2-mmarco-v2'
tokenizer  = AutoTokenizer.from_pretrained(model_name)
model      = AutoModel.from_pretrained(model_name)

Funcionalidades

Clasificación de Texto
Basado en Transformers
Compatible con PyTorch
Afinado en el conjunto de datos mMARCO multilingüe
Compatible con AutoTrain
Licencia MIT

Casos de uso

Clasificación de texto multilingüe
Búsqueda de pasajes en múltiples idiomas
Clasificación de documentos en diferentes idiomas
Mejorar sistemas de recuperación de información multilingüe