mmlw-roberta-large

sdadas
Similitud de oraciones

MMLW (muszę mieć lepszą wiadomość) son codificadores neuronales de texto para polaco. Este es un modelo destilado que se puede usar para generar incrustaciones aplicables a muchas tareas como similitud semántica, clustering, recuperación de información. El modelo también puede servir como base para ajustes finos adicionales. Transforma textos en vectores de 1024 dimensiones. El modelo se inició con el punto de control de RoBERTa polaco, y luego se entrenó con el método de destilación de conocimiento multilingüe en un corpus diverso de 60 millones de pares de textos polaco-inglés. Utilizamos Embeddings de Banderas Inglesas (BGE) como modelos docentes para la destilación.

Como usar

from sentence_transformers import SentenceTransformer
from sentence_transformers.util import cos_sim

query_prefix = "zapytanie: "
answer_prefix = ""
queries = [query_prefix + "Jak dożyć 100 lat?"]
answers = [
answer_prefix + "Trzeba zdrowo się odżywiać i uprawiać sport.",
answer_prefix + "Trzeba pić alkohol, imprezować i jeździć szybkimi autami.",
answer_prefix + "Gdy trwała kampania politycy zapewniali, że rozprawią się z zakazem niedzielnego handlu."
]
model = SentenceTransformer("sdadas/mmlw-roberta-large")
queries_emb = model.encode(queries, convert_to_tensor=True, show_progress_bar=False)
answers_emb = model.encode(answers, convert_to_tensor=True, show_progress_bar=False)

best_answer = cos_sim(queries_emb, answers_emb).argmax().item()
print(answers[best_answer])
# Trzeba zdrowo się odżywiać i uprawiać sport.

Funcionalidades

Codificación de texto para polaco
Generación de incrustaciones de 1024 dimensiones
Similitud semántica
Clusterización
Recuperación de información
Punto de control basado en RoBERTa polaco
Entrenado con destilación de conocimiento multilingüe

Casos de uso

Similitud semántica entre oraciones
Agrupamiento de oraciones similares
Recuperación de información
Clasificación de textos
Clasificación de pares de textos
Evaluación de similitud textual en conjuntos de datos multilingües