flax-sentence-embeddings/all_datasets_v3_MiniLM-L12

flax-sentence-embeddings

Similitud de oraciones

El proyecto tiene como objetivo entrenar modelos de incrustaciones de oraciones en conjuntos de datos a nivel de oración muy grandes utilizando un objetivo de aprendizaje contrastivo autodirigido. Utilizamos el modelo MiniLM-L12 preentrenado y lo afinamos en un conjunto de datos de 1B de pares de oraciones. Usamos un objetivo de aprendizaje contrastivo: dada una oración del par, el modelo debe predecir cuál de un conjunto de otras oraciones muestreadas al azar fue realmente emparejada con ella en nuestro conjunto de datos. Desarrollamos este modelo durante la semana de la comunidad usando JAX/Flax para NLP y CV, organizada por Hugging Face. Desarrollamos este modelo como parte del proyecto: Entrenar el Mejor Modelo de Incrustaciones de Oraciones de la Historia con 1B Pares de Entrenamiento. Nos beneficiamos de una infraestructura de hardware eficiente para ejecutar el proyecto: 7 TPU v3-8, así como de la intervención de miembros del equipo de Flax, JAX y Cloud de Google sobre marcos de aprendizaje profundo eficientes.

Como usar

Aquí se muestra cómo usar este modelo para obtener las características de un texto dado usando la biblioteca SentenceTransformers:
from sentence_transformers import SentenceTransformer

model = SentenceTransformer('flax-sentence-embeddings/all_datasets_v3_MiniLM-L12')
text = "Replace me by any text you'd like."
text_embbedding = model.encode(text)
# array([-0.01559514,  0.04046123,  0.1317083 ,  0.00085931,  0.04585106,
#        -0.05607086,  0.0138078 ,  0.03569756,  0.01420381,  0.04266302 ...],
#        dtype=float32)

Funcionalidades

Mejora de la recuperación de información
Capacidades de agrupamiento de oraciones
Tareas de similitud de oraciones

Casos de uso

Codificación de oraciones para la recuperación de información
Agrupamiento de oraciones
Tareas de similitud de oraciones