mmlw-retrieval-e5-small

sdadas

Similitud de oraciones

MMLW (muszę mieć lepszą wiadomość) son codificadores neurales de texto para polaco. Este modelo está optimizado para tareas de recuperación de información. Puede transformar consultas y pasajes en vectores de 384 dimensiones. El modelo fue desarrollado usando un procedimiento de dos pasos: en el primer paso, se inicializó con un punto de control multilingüe E5 y luego se entrenó con un método de destilación de conocimiento multilingüe en un corpus diverso de 60 millones de pares de textos polaco-inglés. Utilizamos las FlagEmbeddings en inglés (BGE) como modelos de profesor para la destilación. El segundo paso implicó la afinación de los modelos obtenidos con pérdida contrastiva en la división de entrenamiento de MS MARCO en polaco. Para mejorar la eficiencia del entrenamiento contrastivo, utilizamos tamaños de lote grandes: 1152 para el modelo pequeño, 768 para el base, y 288 para los modelos grandes. La afinación se llevó a cabo en un clúster de 12 GPUs A100. El 26 de diciembre de 2023, actualizamos el modelo a una nueva versión con resultados mejorados. Todavía puedes descargar la versión anterior usando la etiqueta v1: AutoModel.from_pretrained("sdadas/mmlw-retrieval-e5-small", revision="v1")

Como usar

from sentence_transformers import SentenceTransformer
from sentence_transformers.util import cos_sim

query_prefix = "query: "
answer_prefix = "passage: "
queries = [query_prefix + "Jak dożyć 100 lat?"]
answers = [
    answer_prefix + "Trzeba zdrowo się odżywiać i uprawiać sport.",
    answer_prefix + "Trzeba pić alkohol, imprezować y jeździć szybkimi autami.",
    answer_prefix + "Gdy trwała kampania politycy zapewniali, że rozprawią się z zakazem niedzielnego handlu."
]
model = SentenceTransformer("sdadas/mmlw-retrieval-e5-small")
queries_emb = model.encode(queries, convert_to_tensor=True, show_progress_bar=False)
answers_emb = model.encode(answers, convert_to_tensor=True, show_progress_bar=False)

best_answer = cos_sim(queries_emb, answers_emb).argmax().item()
print(answers[best_answer])
# Trzeba zdrowo się odżywiać y uprawiać sport.

Funcionalidades

Optimizado para tareas de recuperación de información
Transforma consultas y pasajes en vectores de 384 dimensiones
Entrenado con destilación de conocimiento multilingüe
Utiliza modelos de profesor FlagEmbeddings en inglés (BGE)
Afinado con pérdida contrastiva en la división de entrenamiento de MS MARCO en polaco
Soporte de clúster de GPUs A100

Casos de uso

Recuperación de información
Extracción de características
Construcción de sistemas de recomendación
Análisis de semejanza de oraciones
Implementación de endpoints de inferencia