mmlw-e5-base
MMLW (muszę mieć lepszą wiadomość) son codificadores neuronales de texto para polaco. Este es un modelo distilado que puede ser utilizado para generar incrustaciones aplicables a muchas tareas, como la similitud semántica, la agrupación y la recuperación de información. El modelo también puede servir como base para un mayor ajuste fino y transforma los textos en vectores de 768 dimensiones. El modelo fue inicializado con el punto de control multilingüe E5 y luego entrenado con el método de destilación de conocimiento multilingüe en un diverso corpus de 60 millones de pares de textos polaco-inglés. Utilizamos FlagEmbeddings en inglés (BGE) como modelos docentes para la destilación.
Como usar
⚠️ Nuestros modelos de incrustaciones requieren el uso de prefijos y sufijos específicos al codificar textos. Para este modelo, las consultas deben estar precedidas por 'query:' y los pasajes por 'passage:' ⚠️
from sentence_transformers import SentenceTransformer
from sentence_transformers.util import cos_sim
query_prefix = 'query: '
answer_prefix = 'passage: '
queries = [query_prefix + 'Jak dożyć 100 lat?']
answers = [
answer_prefix + 'Trzeba zdrowo się odżywiać i uprawiać sport.',
answer_prefix + 'Trzeba pić alkohol, imprezować i jeździć szybkimi autami.',
answer_prefix + 'Gdy trwała kampania politycy zapewniali, że rozprawią się z zakazem niedzielnego handlu.'
]
model = SentenceTransformer('sdadas/mmlw-e5-base')
queries_emb = model.encode(queries, convert_to_tensor=True, show_progress_bar=False)
answers_emb = model.encode(answers, convert_to_tensor=True, show_progress_bar=False)
best_answer = cos_sim(queries_emb, answers_emb).argmax().item()
print(answers[best_answer])
# Trzeba zdrowo się odżywiać i uprawiać sport.
Funcionalidades
- Codificadores neuronales de texto para polaco
- Modelo destilado
- Generación de incrustaciones de 768 dimensiones
- Aplicable a múltiples tareas: similitud semántica, agrupación, recuperación de información
- Base para mayor ajuste fino
- Entrenamiento en corpus de 60 millones de pares de textos polaco-inglés
- Uso de FlagEmbeddings en inglés (BGE) para destilación
Casos de uso
- Similitud semántica
- Agrupación
- Recuperación de información
- Generación de incrustaciones de texto
- Construcción de una base para mayor ajuste fino