vabatista/sbert-mpnet-base-bm25-hard-neg-pt-br
Este modelo de similitud fue entrenado durante 2 épocas basado en sentence-transformers/paraphrase-multilingual-mpnet-base-v2. Utilizamos el conjunto de datos SQuAD 1.1 (versión en portugués brasileño) para comparar la similitud entre preguntas y oraciones que contienen la respuesta a la pregunta. Empleamos MultipleNegativesRankingLoss como la función objetivo. Para generar ejemplos negativos, nuestra estrategia involucró el uso de BM25 para recuperar ejemplos similares de todas las oraciones en el conjunto de datos que no contenían la respuesta. Probamos este modelo utilizando el conjunto de datos portugués Faquad QA y mejoramos la recuperación densa en un 10% en MRR@10 en comparación con el modelo base.
Como usar
Para usar este modelo, puede emplear la siguiente implementación en PyTorch:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer('vabatista/sbert-mpnet-base-bm25-hard-neg-pt-br')
# Ejemplo de inferencia
sentences = ["A quem a Virgem Maria supostamente apareceu em 1858 em Lourdes, França?",
"É uma réplica da gruta de Lourdes, na França, onde a Virgem Maria apareceu para Santa Bernadette Soubirous em 1858."]
embeddings = model.encode(sentences)
print(embeddings)
Funcionalidades
- Trained for 2 epochs
- Uses SQuAD 1.1 dataset (Brazilian Portuguese version)
- Compares similarity between questions and sentences containing the answer
- Employs MultipleNegativesRankingLoss as the objective function
- Strategy involves using BM25 to retrieve similar negative examples
- Improved dense retrieval by 10% in MRR@10 compared to the base model
Casos de uso
- Comparar la similitud entre preguntas y respuestas
- Recuperación densa en sistemas de pregunta-respuesta
- Generación de incrustaciones de texto para otros modelos de IA/ML