mmlw-e5-base

sdadas
Similitud de oraciones

MMLW (muszę mieć lepszą wiadomość) son codificadores neuronales de texto para polaco. Este es un modelo distilado que puede ser utilizado para generar incrustaciones aplicables a muchas tareas, como la similitud semántica, la agrupación y la recuperación de información. El modelo también puede servir como base para un mayor ajuste fino y transforma los textos en vectores de 768 dimensiones. El modelo fue inicializado con el punto de control multilingüe E5 y luego entrenado con el método de destilación de conocimiento multilingüe en un diverso corpus de 60 millones de pares de textos polaco-inglés. Utilizamos FlagEmbeddings en inglés (BGE) como modelos docentes para la destilación.

Como usar

⚠️ Nuestros modelos de incrustaciones requieren el uso de prefijos y sufijos específicos al codificar textos. Para este modelo, las consultas deben estar precedidas por 'query:' y los pasajes por 'passage:' ⚠️

from sentence_transformers import SentenceTransformer
from sentence_transformers.util import cos_sim

query_prefix = 'query: '
answer_prefix = 'passage: '
queries = [query_prefix + 'Jak dożyć 100 lat?']
answers = [
answer_prefix + 'Trzeba zdrowo się odżywiać i uprawiać sport.',
answer_prefix + 'Trzeba pić alkohol, imprezować i jeździć szybkimi autami.',
answer_prefix + 'Gdy trwała kampania politycy zapewniali, że rozprawią się z zakazem niedzielnego handlu.'
]
model = SentenceTransformer('sdadas/mmlw-e5-base')
queries_emb = model.encode(queries, convert_to_tensor=True, show_progress_bar=False)
answers_emb = model.encode(answers, convert_to_tensor=True, show_progress_bar=False)

best_answer = cos_sim(queries_emb, answers_emb).argmax().item()
print(answers[best_answer])
# Trzeba zdrowo się odżywiać i uprawiać sport.

Funcionalidades

Codificadores neuronales de texto para polaco
Modelo destilado
Generación de incrustaciones de 768 dimensiones
Aplicable a múltiples tareas: similitud semántica, agrupación, recuperación de información
Base para mayor ajuste fino
Entrenamiento en corpus de 60 millones de pares de textos polaco-inglés
Uso de FlagEmbeddings en inglés (BGE) para destilación

Casos de uso

Similitud semántica
Agrupación
Recuperación de información
Generación de incrustaciones de texto
Construcción de una base para mayor ajuste fino