unicamp-dl/mMiniLM-L6-v2-mmarco-v2
unicamp-dl
Clasificación de texto
mMiniLM-L6-v2-mmarco-v2 es un modelo multilingüe basado en miniLM afinado en una versión multilingüe del conjunto de datos de pasajes de MS MARCO. Este conjunto de datos, llamado mMARCO, está formado por pasajes en 9 idiomas diferentes, traducidos de la colección de pasajes de MS MARCO en inglés. En la versión v2, los conjuntos de datos fueron traducidos utilizando Google Translate. Más información sobre el conjunto de datos o el método de traducción se puede encontrar en nuestro mMARCO: A Multilingual Version of MS MARCO Passage Ranking Dataset y el repositorio de mMARCO.
Como usar
from transformers import AutoTokenizer, AutoModel
model_name = 'unicamp-dl/mMiniLM-L6-v2-mmarco-v2'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name)
Funcionalidades
- Clasificación de Texto
- Basado en Transformers
- Compatible con PyTorch
- Afinado en el conjunto de datos mMARCO multilingüe
- Compatible con AutoTrain
- Licencia MIT
Casos de uso
- Clasificación de texto multilingüe
- Búsqueda de pasajes en múltiples idiomas
- Clasificación de documentos en diferentes idiomas
- Mejorar sistemas de recuperación de información multilingüe