mmlw-roberta-base

sdadas
Similitud de oraciones

MMLW (muszę mieć lepszą wiadomość) son codificadores de texto neuronales para polaco. Este es un modelo destilado que se puede utilizar para generar incrustaciones aplicables a muchas tareas, como similitud semántica, agrupación y recuperación de información. El modelo también puede servir como una base para un afinamiento adicional. Transforma textos en vectores de 768 dimensiones. El modelo se inició con un punto de control RoBERTa polaco y luego se entrenó con un método de destilación de conocimiento multilingüe en un corpus diverso de 60 millones de pares de texto polaco-inglés. Utilizamos los English FlagEmbeddings (BGE) como modelos maestros para la destilación.

Como usar

⚠️ Nuestros modelos de incrustación requieren el uso de prefijos y sufijos específicos al codificar textos. Para este modelo, cada consulta debe estar precedida por el prefijo "zapytanie: " ⚠️

from sentence_transformers import SentenceTransformer
from sentence_transformers.util import cos_sim

query_prefix = "zapytanie: "
answer_prefix = ""
queries = [query_prefix + "Jak dożyć 100 lat?"]
answers = [
answer_prefix + "Trzeba zdrowo się odżywiać i uprawiać sport.",
answer_prefix + "Trzeba pić alkohol, imprezować i jeździć szybkimi autami.",
answer_prefix + "Gdy trwała kampania politycy zapewniali, że rozprawią się z zakazem niedzielnego handlu."
]
model = SentenceTransformer("sdadas/mmlw-roberta-base")
queries_emb = model.encode(queries, convert_to_tensor=True, show_progress_bar=False)
answers_emb = model.encode(answers, convert_to_tensor=True, show_progress_bar=False)

best_answer = cos_sim(queries_emb, answers_emb).argmax().item()
print(answers[best_answer])
# Trzeba zdrowo się odżywiać i uprawiać sport.

Funcionalidades

Codificadores neuronales de texto para polaco
Modelo destilado
Genera incrustaciones de 768 dimensiones
Entrenado con un método de destilación de conocimiento multilingüe
Utiliza English FlagEmbeddings (BGE) como modelos maestros

Casos de uso

Similitud semántica
Agrupación de textos
Recuperación de información
Base para un afinamiento adicional