mmlw-e5-small

sdadas
Similitud de oraciones

MMLW (muszę mieć lepszą wiadomość) son codificadores de texto neuronales para polaco. Este es un modelo destilado que se puede utilizar para generar incrustaciones aplicables a muchas tareas como la similitud semántica, agrupamiento, recuperación de información. El modelo también puede servir como base para un ajuste fino posterior. Transforma textos en vectores de 384 dimensiones. El modelo se inicializó con el punto de control del E5 multilenguaje y luego se entrenó con un método de destilación de conocimiento multilingüe en un corpus diverso de 60 millones de pares de texto polaco-inglés. Utilizamos modelos de incrustaciones de bandera en inglés (BGE) como modelos de maestro para la destilación.

Como usar

⚠️ Nuestros modelos de incrustaciones requieren el uso de prefijos y sufijos específicos al codificar textos. Para este modelo, las consultas deben estar prefijadas con "query: " y los pasajes con "passage: " ⚠️

Puedes usar el modelo así con sentence-transformers:

from sentence_transformers import SentenceTransformer
from sentence_transformers.util import cos_sim

query_prefix = "query: "
answer_prefix = "passage: "
queries = [query_prefix + "Jak dożyć 100 lat?"]
answers = [
    answer_prefix + "Trzeba zdrowo się odżywiać i uprawiać sport.",
    answer_prefix + "Trzeba pić alkohol, imprezować i jeździć szybkimi autami.",
    answer_prefix + "Gdy trwała kampania politycy zapewniali, że rozprawią się z zakazem niedzielnego handlu."
]
model = SentenceTransformer("sdadas/mmlw-e5-small")
queries_emb = model.encode(queries, convert_to_tensor=True, show_progress_bar=False)
answers_emb = model.encode(answers, convert_to_tensor=True, show_progress_bar=False)

best_answer = cos_sim(queries_emb, answers_emb).argmax().item()
print(answers[best_answer])
# Trzeba zdrowo się odżywiać i uprawiać sport.

Funcionalidades

Genera incrustaciones para tareas como la similitud semántica, agrupamiento y recuperación de información.
Transforma textos en vectores de 384 dimensiones.
Inicializado con el punto de control del E5 multilinguaje.
Entrenado con el método de destilación de conocimiento multilingüe.
Utilizó 60 millones de pares de texto polaco-inglés.

Casos de uso

Similitud semántica
Agrupamiento
Recuperación de información