flax-sentence-embeddings/all_datasets_v4_mpnet-base

flax-sentence-embeddings
Similitud de oraciones

El proyecto tiene como objetivo entrenar modelos de incrustación de oraciones en conjuntos de datos a nivel de oración muy grandes utilizando un objetivo de aprendizaje contrastivo auto-supervisado. Usamos el modelo 'mpnet-base' preentrenado y lo afinamos en un conjunto de datos de 1 mil millones de pares de oraciones. Utilizamos un objetivo de aprendizaje contrastivo: dada una oración del par, el modelo debe predecir cuál de un conjunto de otras oraciones seleccionadas aleatoriamente fue realmente emparejada con ella en nuestro conjunto de datos. Desarrollamos este modelo durante la semana de la Comunidad utilizando JAX/Flax para NLP y CV, organizada por Hugging Face. Desarrollamos este modelo como parte del proyecto: Entrenar el Mejor Modelo de Incrustación de Oraciones de Todos los Tiempos con 1B Pares de Entrenamiento. Nos beneficiamos de la infraestructura de hardware eficiente para ejecutar el proyecto: 7 TPUs v3-8, así como la intervención de miembros del equipo de Flax, JAX, y Cloud de Google sobre marcos eficientes de aprendizaje profundo.

Como usar

Aquí se explica cómo usar este modelo para obtener las características de un texto dado utilizando la biblioteca SentenceTransformers:

from sentence_transformers import SentenceTransformer

model = SentenceTransformer('flax-sentence-embeddings/all_datasets_v4_mpnet-base')
text = "Reemplázame por cualquier texto que te guste."
text_embbedding = model.encode(text)
# array([-0.01559514,  0.04046123,  0.1317083 ,  0.00085931,  0.04585106,
#        -0.05607086,  0.0138078 ,  0.03569756,  0.01420381,  0.04266302 ...],
#        dtype=float32)

Funcionalidades

Uso del modelo 'mpnet-base' preentrenado
Ajuste fino con un conjunto de datos de 1 mil millones de pares de oraciones
Objetivo de aprendizaje contrastivo auto-supervisado
Desarrollado con JAX/Flax
Infraestructura de hardware eficiente (TPUs v3-8)

Casos de uso

Codificador de oraciones
Recuperación de información
Agrupamiento
Tareas de similitud de oraciones