mmlw-e5-large

sdadas
Similitud de oraciones

MMLW (muszę mieć lepszą wiadomość) son codificadores de texto neuronales para el polaco. Este es un modelo destilado que puede usarse para generar embeddings aplicables a muchas tareas como similitud semántica, clustering y recuperación de información. El modelo también puede servir como base para un ajuste fino adicional. Transforma textos en vectores de 1024 dimensiones. El modelo se inicializó con un punto de control multilingüe E5 y luego se entrenó con el método de destilación de conocimiento multilingüe en un corpus diverso de 60 millones de pares de textos polaco-inglés. Utilizamos modelos de profesores de Embeddings de Banderas Inglesas (BGE) para la destilación.

Como usar

⚠️ Nuestros modelos de embeddings requieren el uso de prefijos y sufijos específicos al codificar textos. Para este modelo, las consultas deben tener el prefijo 'query: ' y los pasajes el prefijo 'passage: '. ⚠️ Puedes usar el modelo de la siguiente manera con sentence-transformers:

from sentence_transformers import SentenceTransformer
from sentence_transformers.util import cos_sim

query_prefix = 'query: '
answer_prefix = 'passage: '
queries = [query_prefix + 'Jak dożyć 100 lat?']
answers = [
    answer_prefix + 'Trzeba zdrowo się odżywiać i uprawiać sport.',
    answer_prefix + 'Trzeba pić alkohol, imprezować i jeździć szybkimi autami.',
    answer_prefix + 'Gdy trwała kampania politycy zapewniali, że rozprawią się z zakazem niedzielnego handlu.'
]
model = SentenceTransformer('sdadas/mmlw-e5-large')
queries_emb = model.encode(queries, convert_to_tensor=True, show_progress_bar=False)
answers_emb = model.encode(answers, convert_to_tensor=True, show_progress_bar=False)

best_answer = cos_sim(queries_emb, answers_emb).argmax().item()
print(answers[best_answer])
# Trzeba zdrowo się odżywiać i uprawiać sport.

Funcionalidades

Codificadores de texto neuronales
Generación de embeddings
Similitud semántica
Clustering
Recuperación de información
Transformación de textos a vectores de 1024 dimensiones

Casos de uso

Generar embeddings para textos
Calcular la similitud semántica entre frases
Agrupamiento de datos basado en texto
Recuperación de información