mmlw-retrieval-roberta-base
MMLW (muszę mieć lepszą wiadomość) son codificadores de texto neuronales para polaco. Este modelo está optimizado para tareas de recuperación de información. Puede transformar consultas y pasajes en vectores dimensionales de 768. El modelo fue desarrollado usando un procedimiento de dos pasos: En el primer paso, se inicializó con el checkpoint de Polish RoBERTa y luego se entrenó con un método de destilación de conocimiento multilingüe en un corpus diverso de 60 millones de pares de textos polaco-inglés. Usamos los modelos English FlagEmbeddings (BGE) como maestros para la destilación. El segundo paso involucró el ajuste fino de los modelos obtenidos con pérdida contrastiva en la división de entrenamiento de Polish MS MARCO. Para mejorar la eficiencia del entrenamiento contrastivo, usamos tamaños de lotes grandes: 1152 para modelos pequeños, 768 para modelos base y 288 para modelos grandes. El ajuste fino se llevó a cabo en un clúster de 12 GPUs A100.
Como usar
⚠️ Nuestros recuperadores densos requieren el uso de prefijos y sufijos específicos al codificar textos. Para este modelo, cada consulta debe ir precedida del prefijo "zapytanie: " ⚠️
Puedes usar el modelo así con sentence-transformers:
from sentence_transformers import SentenceTransformer
from sentence_transformers.util import cos_sim
query_prefix = "zapytanie: "
answer_prefix = ""
queries = [query_prefix + "Jak dożyć 100 lat?"]
answers = [
answer_prefix + "Trzeba zdrowo się odżywiać i uprawiać sport.",
answer_prefix + "Trzeba pić alkohol, imprezować i jeździć szybkimi autami.",
answer_prefix + "Gdy trwała kampania politycy zapewniali, że rozprawią się z zakazem niedzielnego handlu."
]
model = SentenceTransformer("sdadas/mmlw-retrieval-roberta-base")
queries_emb = model.encode(queries, convert_to_tensor=True, show_progress_bar=False)
answers_emb = model.encode(answers, convert_to_tensor=True, show_progress_bar=False)
best_answer = cos_sim(queries_emb, answers_emb).argmax().item()
print(answers[best_answer])
# Trzeba zdrowo się odżywiać i uprawiać sport.
Funcionalidades
- Codificadores de texto neuronales para polaco
- Optimizado para tareas de recuperación de información
- Transforma consultas y pasajes en vectores dimensionales de 768
- Entrenado con un método de destilación de conocimiento multilingüe
- Ajuste fino con pérdida contrastiva en Polish MS MARCO
- Usa tamaños de lotes grandes para mejorar la eficiencia del entrenamiento
Casos de uso
- Recuperación de información
- Extracción de características de texto
- Similitud de oraciones
- Encarnación de texto