flax-sentence-embeddings/stackoverflow_mpnet-base

flax-sentence-embeddings

Similitud de oraciones

Este modelo es una versión entrenada de 'microsoft/mpnet-base' utilizando 18,562,443 pares (título, cuerpo) de StackOverflow. Los SentenceTransformers son un conjunto de modelos y marcos que permiten entrenar y generar incrustaciones de oraciones a partir de datos dados. Estas incrustaciones se pueden utilizar para clustering, búsqueda semántica y otras tareas. Utilizamos un modelo preentrenado 'microsoft/mpnet-base' y lo entrenamos usando una configuración de Red Siamesa y un objetivo de aprendizaje contrastivo. Para este modelo, se utilizó el pooling promedio de los estados ocultos como incrustaciones de oraciones. El modelo fue desarrollado durante la semana comunitaria utilizando JAX/Flax para NLP y CV, organizada por Hugging Face. El proyecto se benefició de la infraestructura de hardware eficiente para ejecutar el proyecto: 7 TPUs v3-8, así como asistencia de miembros de los equipos de Flax, JAX y Cloud de Google sobre marcos de aprendizaje profundo eficientes.

Como usar

Aquí se muestra cómo usar este modelo para obtener las características de un texto dado utilizando la biblioteca SentenceTransformers:
from sentence_transformers import SentenceTransformer

model = SentenceTransformer('flax-sentence-embeddings/stackoverflow_mpnet-base')
text = "Replace me by any question / answer you'd like."
text_embedding = model.encode(text)
# array([-0.01559514,  0.04046123,  0.1317083 ,  0.00085931,  0.04585106,
#        -0.05607086,  0.0138078 ,  0.03569756,  0.01420381,  0.04266302 ...],
#        dtype=float32)

Funcionalidades

Transformadores de oraciones
PyTorch
mpnet
Extracción de características
Compatibilidad con AutoTrain
Compatibilidad con Endpoints
Región: EE.UU.

Casos de uso

Encoder de oraciones para un motor de búsqueda
Búsqueda semántica
Clustering
Tareas de similitud de oraciones