vabatista/sbert-mpnet-base-bm25-hard-neg-pt-br

vabatista

Similitud de oraciones

Este modelo de similitud fue entrenado durante 2 épocas basado en sentence-transformers/paraphrase-multilingual-mpnet-base-v2. Utilizamos el conjunto de datos SQuAD 1.1 (versión en portugués brasileño) para comparar la similitud entre preguntas y oraciones que contienen la respuesta a la pregunta. Empleamos MultipleNegativesRankingLoss como la función objetivo. Para generar ejemplos negativos, nuestra estrategia involucró el uso de BM25 para recuperar ejemplos similares de todas las oraciones en el conjunto de datos que no contenían la respuesta. Probamos este modelo utilizando el conjunto de datos portugués Faquad QA y mejoramos la recuperación densa en un 10% en MRR@10 en comparación con el modelo base.

Como usar

Para usar este modelo, puede emplear la siguiente implementación en PyTorch:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer('vabatista/sbert-mpnet-base-bm25-hard-neg-pt-br')

# Ejemplo de inferencia
sentences = ["A quem a Virgem Maria supostamente apareceu em 1858 em Lourdes, França?",
            "É uma réplica da gruta de Lourdes, na França, onde a Virgem Maria apareceu para Santa Bernadette Soubirous em 1858."]
embeddings = model.encode(sentences)
print(embeddings)

Funcionalidades

Trained for 2 epochs
Uses SQuAD 1.1 dataset (Brazilian Portuguese version)
Compares similarity between questions and sentences containing the answer
Employs MultipleNegativesRankingLoss as the objective function
Strategy involves using BM25 to retrieve similar negative examples
Improved dense retrieval by 10% in MRR@10 compared to the base model

Casos de uso

Comparar la similitud entre preguntas y respuestas
Recuperación densa en sistemas de pregunta-respuesta
Generación de incrustaciones de texto para otros modelos de IA/ML