mmlw-retrieval-roberta-large
MMLW (muszę mieć lepszą wiadomość) son codificadores de texto neuronales para polaco. Este modelo está optimizado para tareas de recuperación de información. Puede transformar consultas y pasajes en vectores de 1024 dimensiones. El modelo se desarrolló utilizando un procedimiento de dos pasos: En el primer paso, se inicializó con un punto de control de RoBERTa en polaco y luego se entrenó con un método de destilación de conocimiento multilingüe en un corpus diverso de 60 millones de pares de textos polaco-inglés, utilizando los embeddings de bandera inglesa (BGE) como modelos maestros para la destilación. El segundo paso involucró el ajuste fino de los modelos obtenidos con pérdida contrasiva en el conjunto de entrenamiento polaco de MS MARCO. Para mejorar la eficiencia del entrenamiento contrasivo, utilizamos lotes grandes: 1152 para modelos pequeños, 768 para modelos base y 288 para modelos grandes. El ajuste fino se realizó en un clúster de 12 GPUs A100.
Como usar
from sentence_transformers import SentenceTransformer
from sentence_transformers.util import cos_sim
query_prefix = "zapytanie: "
answer_prefix = ""
queries = [query_prefix + "Jak dożyć 100 lat?"]
answers = [
answer_prefix + "Trzeba zdrowo się odżywiać i uprawiać sport.",
answer_prefix + "Trzeba pić alkohol, imprezować i jeździć szybkimi autami.",
answer_prefix + "Gdy trwała kampania politycy zapewniali, że rozprawią się z zakazem niedzielnego handlu."
]
model = SentenceTransformer("sdadas/mmlw-retrieval-roberta-large")
queries_emb = model.encode(queries, convert_to_tensor=True, show_progress_bar=False)
answers_emb = model.encode(answers, convert_to_tensor=True, show_progress_bar=False)
best_answer = cos_sim(queries_emb, answers_emb).argmax().item()
print(answers[best_answer])
# Trzeba zdrowo się odżywiać i uprawiać sport.
Funcionalidades
- Codificación de texto neuronal para polaco
- Optimizado para tareas de recuperación de información
- Transformación de consultas y pasajes en vectores de 1024 dimensiones
- Entrenamiento con destilación de conocimiento multilingüe
- Ajuste fino con pérdida contrasiva
- Uso de lotes grandes durante el entrenamiento
Casos de uso
- Recuperación de información
- Codificación de consultas y pasajes
- Extracción de características
- Similitud de oraciones
- Embeddings de texto
- Compatibilidad con AutoTrain
- Puntos finales de inferencia