mmlw-retrieval-roberta-large

sdadas

Similitud de oraciones

MMLW (muszę mieć lepszą wiadomość) son codificadores de texto neuronales para polaco. Este modelo está optimizado para tareas de recuperación de información. Puede transformar consultas y pasajes en vectores de 1024 dimensiones. El modelo se desarrolló utilizando un procedimiento de dos pasos: En el primer paso, se inicializó con un punto de control de RoBERTa en polaco y luego se entrenó con un método de destilación de conocimiento multilingüe en un corpus diverso de 60 millones de pares de textos polaco-inglés, utilizando los embeddings de bandera inglesa (BGE) como modelos maestros para la destilación. El segundo paso involucró el ajuste fino de los modelos obtenidos con pérdida contrasiva en el conjunto de entrenamiento polaco de MS MARCO. Para mejorar la eficiencia del entrenamiento contrasivo, utilizamos lotes grandes: 1152 para modelos pequeños, 768 para modelos base y 288 para modelos grandes. El ajuste fino se realizó en un clúster de 12 GPUs A100.

Como usar

from sentence_transformers import SentenceTransformer
from sentence_transformers.util import cos_sim

query_prefix = "zapytanie: "
answer_prefix = ""
queries = [query_prefix + "Jak dożyć 100 lat?"]
answers = [
answer_prefix + "Trzeba zdrowo się odżywiać i uprawiać sport.",
answer_prefix + "Trzeba pić alkohol, imprezować i jeździć szybkimi autami.",
answer_prefix + "Gdy trwała kampania politycy zapewniali, że rozprawią się z zakazem niedzielnego handlu."
]
model = SentenceTransformer("sdadas/mmlw-retrieval-roberta-large")
queries_emb = model.encode(queries, convert_to_tensor=True, show_progress_bar=False)
answers_emb = model.encode(answers, convert_to_tensor=True, show_progress_bar=False)

best_answer = cos_sim(queries_emb, answers_emb).argmax().item()
print(answers[best_answer])
# Trzeba zdrowo się odżywiać i uprawiać sport.

Funcionalidades

Codificación de texto neuronal para polaco
Optimizado para tareas de recuperación de información
Transformación de consultas y pasajes en vectores de 1024 dimensiones
Entrenamiento con destilación de conocimiento multilingüe
Ajuste fino con pérdida contrasiva
Uso de lotes grandes durante el entrenamiento

Casos de uso

Recuperación de información
Codificación de consultas y pasajes
Extracción de características
Similitud de oraciones
Embeddings de texto
Compatibilidad con AutoTrain
Puntos finales de inferencia