flax-sentence-embeddings/multi-QA_v1-mpnet-asymmetric-Q
SentenceTransformers es un conjunto de modelos y frameworks que permiten entrenar y generar embeddings de oraciones a partir de datos dados. Los embeddings de oraciones generados pueden ser utilizados para Clustering, Búsqueda Semántica y otras tareas. Usamos dos modelos mpnet-base preentrenados por separado y los entrenamos utilizando un objetivo de aprendizaje contrastivo. Se utilizaron pares de preguntas y respuestas de StackExchange y otros conjuntos de datos como datos de entrenamiento para hacer el modelo más robusto a la similitud de embeddings de Preguntas/Respuestas. Desarrollamos este modelo durante la Semana de la Comunidad utilizando JAX/Flax para NLP y CV, organizado por Hugging Face. Desarrollamos este modelo como parte del proyecto: Entrenar el Mejor Modelo de Embeddings de Oraciones con 1B de pares de entrenamiento. Nos beneficiamos de la infraestructura de hardware eficiente para ejecutar el proyecto: 7 TPUs v3-8, así como asistencia del equipo de Flax, JAX y Cloud de Google sobre frameworks eficientes de deep learning.
Como usar
from sentence_transformers import SentenceTransformer
model_Q = SentenceTransformer('flax-sentence-embeddings/multi-QA_v1-mpnet-asymmetric-Q')
model_A = SentenceTransformer('flax-sentence-embeddings/multi-QA_v1-mpnet-asymmetric-A')
question = "Replace me by any question you'd like."
question_embbedding = model_Q.encode(text)
answer = "Replace me by any answer you'd like."
answer_embbedding = model_A.encode(text)
answer_likeliness = cosine_similarity(question_embedding, answer_embedding)
Funcionalidades
- sentence-transformers
- pytorch
- mpnet
- feature-extraction
- sentence-similarity
- arxiv:2102.07033
- arxiv:2104.08727
- autotrain_compatible
- endpoints_compatible
- region:us
Casos de uso
- Buscador semántico
- Clustering
- Tareas de similitud de oraciones