mmlw-retrieval-e5-small
MMLW (muszę mieć lepszą wiadomość) son codificadores neurales de texto para polaco. Este modelo está optimizado para tareas de recuperación de información. Puede transformar consultas y pasajes en vectores de 384 dimensiones. El modelo fue desarrollado usando un procedimiento de dos pasos: en el primer paso, se inicializó con un punto de control multilingüe E5 y luego se entrenó con un método de destilación de conocimiento multilingüe en un corpus diverso de 60 millones de pares de textos polaco-inglés. Utilizamos las FlagEmbeddings en inglés (BGE) como modelos de profesor para la destilación. El segundo paso implicó la afinación de los modelos obtenidos con pérdida contrastiva en la división de entrenamiento de MS MARCO en polaco. Para mejorar la eficiencia del entrenamiento contrastivo, utilizamos tamaños de lote grandes: 1152 para el modelo pequeño, 768 para el base, y 288 para los modelos grandes. La afinación se llevó a cabo en un clúster de 12 GPUs A100. El 26 de diciembre de 2023, actualizamos el modelo a una nueva versión con resultados mejorados. Todavía puedes descargar la versión anterior usando la etiqueta v1: AutoModel.from_pretrained("sdadas/mmlw-retrieval-e5-small", revision="v1")
Como usar
from sentence_transformers import SentenceTransformer
from sentence_transformers.util import cos_sim
query_prefix = "query: "
answer_prefix = "passage: "
queries = [query_prefix + "Jak dożyć 100 lat?"]
answers = [
answer_prefix + "Trzeba zdrowo się odżywiać i uprawiać sport.",
answer_prefix + "Trzeba pić alkohol, imprezować y jeździć szybkimi autami.",
answer_prefix + "Gdy trwała kampania politycy zapewniali, że rozprawią się z zakazem niedzielnego handlu."
]
model = SentenceTransformer("sdadas/mmlw-retrieval-e5-small")
queries_emb = model.encode(queries, convert_to_tensor=True, show_progress_bar=False)
answers_emb = model.encode(answers, convert_to_tensor=True, show_progress_bar=False)
best_answer = cos_sim(queries_emb, answers_emb).argmax().item()
print(answers[best_answer])
# Trzeba zdrowo się odżywiać y uprawiać sport.
Funcionalidades
- Optimizado para tareas de recuperación de información
- Transforma consultas y pasajes en vectores de 384 dimensiones
- Entrenado con destilación de conocimiento multilingüe
- Utiliza modelos de profesor FlagEmbeddings en inglés (BGE)
- Afinado con pérdida contrastiva en la división de entrenamiento de MS MARCO en polaco
- Soporte de clúster de GPUs A100
Casos de uso
- Recuperación de información
- Extracción de características
- Construcción de sistemas de recomendación
- Análisis de semejanza de oraciones
- Implementación de endpoints de inferencia