mmlw-e5-large
MMLW (muszę mieć lepszą wiadomość) son codificadores de texto neuronales para el polaco. Este es un modelo destilado que puede usarse para generar embeddings aplicables a muchas tareas como similitud semántica, clustering y recuperación de información. El modelo también puede servir como base para un ajuste fino adicional. Transforma textos en vectores de 1024 dimensiones. El modelo se inicializó con un punto de control multilingüe E5 y luego se entrenó con el método de destilación de conocimiento multilingüe en un corpus diverso de 60 millones de pares de textos polaco-inglés. Utilizamos modelos de profesores de Embeddings de Banderas Inglesas (BGE) para la destilación.
Como usar
⚠️ Nuestros modelos de embeddings requieren el uso de prefijos y sufijos específicos al codificar textos. Para este modelo, las consultas deben tener el prefijo 'query: ' y los pasajes el prefijo 'passage: '. ⚠️
Puedes usar el modelo de la siguiente manera con sentence-transformers:
from sentence_transformers import SentenceTransformer
from sentence_transformers.util import cos_sim
query_prefix = 'query: '
answer_prefix = 'passage: '
queries = [query_prefix + 'Jak dożyć 100 lat?']
answers = [
answer_prefix + 'Trzeba zdrowo się odżywiać i uprawiać sport.',
answer_prefix + 'Trzeba pić alkohol, imprezować i jeździć szybkimi autami.',
answer_prefix + 'Gdy trwała kampania politycy zapewniali, że rozprawią się z zakazem niedzielnego handlu.'
]
model = SentenceTransformer('sdadas/mmlw-e5-large')
queries_emb = model.encode(queries, convert_to_tensor=True, show_progress_bar=False)
answers_emb = model.encode(answers, convert_to_tensor=True, show_progress_bar=False)
best_answer = cos_sim(queries_emb, answers_emb).argmax().item()
print(answers[best_answer])
# Trzeba zdrowo się odżywiać i uprawiać sport.
Funcionalidades
- Codificadores de texto neuronales
- Generación de embeddings
- Similitud semántica
- Clustering
- Recuperación de información
- Transformación de textos a vectores de 1024 dimensiones
Casos de uso
- Generar embeddings para textos
- Calcular la similitud semántica entre frases
- Agrupamiento de datos basado en texto
- Recuperación de información