mmlw-retrieval-e5-large
MMLW (muszę mieć lepszą wiadomość) son codificadores de texto neuronales para el polaco. Este modelo está optimizado para tareas de recuperación de información. Puede transformar consultas y pasajes en vectores de 1024 dimensiones. El modelo fue desarrollado mediante un procedimiento en dos pasos. En el primer paso, se inicializó con un punto de control multilingüe E5 y luego se entrenó con el método de destilación de conocimiento multilingüe en un corpus diverso de 60 millones de pares de texto polaco-inglés. Utilizamos FlagEmbeddings en inglés (BGE) como modelos maestros para la destilación. El segundo paso involucró el ajuste fino de los modelos obtenidos con pérdida contrastiva en el conjunto de entrenamiento polaco MS MARCO. Para mejorar la eficiencia del entrenamiento contrastivo, utilizamos tamaños de lote grandes: 1152 para modelos pequeños, 768 para modelos base y 288 para modelos grandes. El ajuste fino se realizó en un clúster de 12 GPUs A100.
Como usar
⚠️ Nuestros recuperadores densos requieren el uso de prefijos y sufijos específicos al codificar textos. Para este modelo, las consultas deben tener el prefijo "query: " y los pasajes el prefijo "passage: " ⚠️
Puedes usar el modelo así con sentence-transformers:
from sentence_transformers import SentenceTransformer
from sentence_transformers.util import cos_sim
query_prefix = "query: "
answer_prefix = "passage: "
queries = [query_prefix + "Jak dożyć 100 lat?"]
answers = [
answer_prefix + "Trzeba zdrowo się odżywiać i uprawiać sport.",
answer_prefix + "Trzeba pić alkohol, imprezować i jeździć szybkimi autami.",
answer_prefix + "Gdy trwała kampania politycy zapewniali, że rozprawią się z zakazem niedzielnego handlu."
]
model = SentenceTransformer("sdadas/mmlw-retrieval-e5-large")
queries_emb = model.encode(queries, convert_to_tensor=True, show_progress_bar=False)
answers_emb = model.encode(answers, convert_to_tensor=True, show_progress_bar=False)
best_answer = cos_sim(queries_emb, answers_emb).argmax().item()
print(answers[best_answer])
# Trzeba zdrowo się odżywiać i uprawiać sport.
Funcionalidades
- Optimizado para tareas de recuperación de información.
- Convierte consultas y pasajes en vectores de 1024 dimensiones.
- Entrenado con un corpus diverso de 60 millones de pares de texto polaco-inglés.
- Utiliza FlagEmbeddings en inglés (BGE) como modelos maestros.
- Ajuste fino con pérdida contrastiva en el conjunto de entrenamiento polaco MS MARCO.
- Tamaños de lote grandes para entrenamiento eficiente.
Casos de uso
- Recuperación de información.
- Codificación de textos en polaco e inglés.
- Búsqueda de documentos relevantes en un corpus grande.
- Optimización de la búsqueda y recuperación de documentos.
- Mejora de la eficiencia en el entrenamiento contrastivo.