mmlw-roberta-large
sdadas
Similitud de oraciones
MMLW (muszę mieć lepszą wiadomość) son codificadores neuronales de texto para polaco. Este es un modelo destilado que se puede usar para generar incrustaciones aplicables a muchas tareas como similitud semántica, clustering, recuperación de información. El modelo también puede servir como base para ajustes finos adicionales. Transforma textos en vectores de 1024 dimensiones. El modelo se inició con el punto de control de RoBERTa polaco, y luego se entrenó con el método de destilación de conocimiento multilingüe en un corpus diverso de 60 millones de pares de textos polaco-inglés. Utilizamos Embeddings de Banderas Inglesas (BGE) como modelos docentes para la destilación.
Como usar
from sentence_transformers import SentenceTransformer
from sentence_transformers.util import cos_sim
query_prefix = "zapytanie: "
answer_prefix = ""
queries = [query_prefix + "Jak dożyć 100 lat?"]
answers = [
answer_prefix + "Trzeba zdrowo się odżywiać i uprawiać sport.",
answer_prefix + "Trzeba pić alkohol, imprezować i jeździć szybkimi autami.",
answer_prefix + "Gdy trwała kampania politycy zapewniali, że rozprawią się z zakazem niedzielnego handlu."
]
model = SentenceTransformer("sdadas/mmlw-roberta-large")
queries_emb = model.encode(queries, convert_to_tensor=True, show_progress_bar=False)
answers_emb = model.encode(answers, convert_to_tensor=True, show_progress_bar=False)
best_answer = cos_sim(queries_emb, answers_emb).argmax().item()
print(answers[best_answer])
# Trzeba zdrowo się odżywiać i uprawiać sport.
Funcionalidades
- Codificación de texto para polaco
- Generación de incrustaciones de 1024 dimensiones
- Similitud semántica
- Clusterización
- Recuperación de información
- Punto de control basado en RoBERTa polaco
- Entrenado con destilación de conocimiento multilingüe
Casos de uso
- Similitud semántica entre oraciones
- Agrupamiento de oraciones similares
- Recuperación de información
- Clasificación de textos
- Clasificación de pares de textos
- Evaluación de similitud textual en conjuntos de datos multilingües