flax-sentence-embeddings/all_datasets_v3_distilroberta-base

flax-sentence-embeddings

Similitud de oraciones

El proyecto tiene como objetivo entrenar modelos de incrustación de oraciones en grandes conjuntos de datos de nivel de oración utilizando un objetivo de aprendizaje contrastivo auto-supervisado. Usamos el modelo distilroberta-base preentrenado y lo afinamos en un conjunto de datos de 1 mil millones de pares de oraciones. Usamos un objetivo de aprendizaje contrastivo: dada una oración del par, el modelo debe predecir cuál de entre un conjunto de otras oraciones muestreadas aleatoriamente, estaba realmente emparejada con ella en nuestro conjunto de datos. Desarrollamos este modelo durante la semana de la Comunidad utilizando JAX/Flax para NLP y CV, organizado por Hugging Face. Desarrollamos este modelo como parte del proyecto: Entrenar el Mejor Modelo de Incrustación de Oraciones de Todos los Tiempos con 1B Pares de Entrenamiento. Nos beneficiamos de una infraestructura de hardware eficiente para ejecutar el proyecto: 7 TPUs v3-8, así como de la intervención de miembros del equipo de Flax, JAX y Cloud de Google sobre marcos de aprendizaje profundo eficientes.

Como usar

Aquí se muestra cómo utilizar este modelo para obtener las características de un texto dado usando la biblioteca SentenceTransformers:
from sentence_transformers import SentenceTransformer

model = SentenceTransformer('flax-sentence-embeddings/all_datasets_v3_distilroberta-base')
text = "Replace me by any text you'd like."
text_embbedding = model.encode(text)
# array([-0.01559514,  0.04046123,  0.1317083 ,  0.00085931,  0.04585106,
#        -0.05607086,  0.0138078 ,  0.03569756,  0.01420381,  0.04266302 ...],
#        dtype=float32)

Funcionalidades

Entrenamiento de modelos de incrustación de oraciones
Uso de un objetivo de aprendizaje contrastivo auto-supervisado
Modelo distilroberta-base preentrenado
Afinado con un conjunto de datos de 1 mil millones de pares de oraciones
Desarrollado utilizando JAX/Flax y TPUs v3-8 de Google

Casos de uso

Codificador de oraciones
Recuperación de información
Agrupamiento de oraciones
Tareas de similitud de oraciones