flax-sentence-embeddings/multi-QA_v1-mpnet-asymmetric-Q

flax-sentence-embeddings

Similitud de oraciones

SentenceTransformers es un conjunto de modelos y frameworks que permiten entrenar y generar embeddings de oraciones a partir de datos dados. Los embeddings de oraciones generados pueden ser utilizados para Clustering, Búsqueda Semántica y otras tareas. Usamos dos modelos mpnet-base preentrenados por separado y los entrenamos utilizando un objetivo de aprendizaje contrastivo. Se utilizaron pares de preguntas y respuestas de StackExchange y otros conjuntos de datos como datos de entrenamiento para hacer el modelo más robusto a la similitud de embeddings de Preguntas/Respuestas. Desarrollamos este modelo durante la Semana de la Comunidad utilizando JAX/Flax para NLP y CV, organizado por Hugging Face. Desarrollamos este modelo como parte del proyecto: Entrenar el Mejor Modelo de Embeddings de Oraciones con 1B de pares de entrenamiento. Nos beneficiamos de la infraestructura de hardware eficiente para ejecutar el proyecto: 7 TPUs v3-8, así como asistencia del equipo de Flax, JAX y Cloud de Google sobre frameworks eficientes de deep learning.

Como usar

from sentence_transformers import SentenceTransformer
model_Q = SentenceTransformer('flax-sentence-embeddings/multi-QA_v1-mpnet-asymmetric-Q')
model_A = SentenceTransformer('flax-sentence-embeddings/multi-QA_v1-mpnet-asymmetric-A')
question = "Replace me by any question you'd like."
question_embbedding = model_Q.encode(text)
answer = "Replace me by any answer you'd like."
answer_embbedding = model_A.encode(text)
answer_likeliness = cosine_similarity(question_embedding, answer_embedding)

Funcionalidades

sentence-transformers
pytorch
mpnet
feature-extraction
sentence-similarity
arxiv:2102.07033
arxiv:2104.08727
autotrain_compatible
endpoints_compatible
region:us

Casos de uso

Buscador semántico
Clustering
Tareas de similitud de oraciones