flax-sentence-embeddings/stackoverflow_mpnet-base
Este modelo es una versión entrenada de 'microsoft/mpnet-base' utilizando 18,562,443 pares (título, cuerpo) de StackOverflow. Los SentenceTransformers son un conjunto de modelos y marcos que permiten entrenar y generar incrustaciones de oraciones a partir de datos dados. Estas incrustaciones se pueden utilizar para clustering, búsqueda semántica y otras tareas. Utilizamos un modelo preentrenado 'microsoft/mpnet-base' y lo entrenamos usando una configuración de Red Siamesa y un objetivo de aprendizaje contrastivo. Para este modelo, se utilizó el pooling promedio de los estados ocultos como incrustaciones de oraciones. El modelo fue desarrollado durante la semana comunitaria utilizando JAX/Flax para NLP y CV, organizada por Hugging Face. El proyecto se benefició de la infraestructura de hardware eficiente para ejecutar el proyecto: 7 TPUs v3-8, así como asistencia de miembros de los equipos de Flax, JAX y Cloud de Google sobre marcos de aprendizaje profundo eficientes.
Como usar
Aquí se muestra cómo usar este modelo para obtener las características de un texto dado utilizando la biblioteca SentenceTransformers:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer('flax-sentence-embeddings/stackoverflow_mpnet-base')
text = "Replace me by any question / answer you'd like."
text_embedding = model.encode(text)
# array([-0.01559514, 0.04046123, 0.1317083 , 0.00085931, 0.04585106,
# -0.05607086, 0.0138078 , 0.03569756, 0.01420381, 0.04266302 ...],
# dtype=float32)
Funcionalidades
- Transformadores de oraciones
- PyTorch
- mpnet
- Extracción de características
- Compatibilidad con AutoTrain
- Compatibilidad con Endpoints
- Región: EE.UU.
Casos de uso
- Encoder de oraciones para un motor de búsqueda
- Búsqueda semántica
- Clustering
- Tareas de similitud de oraciones