flax-sentence-embeddings/all_datasets_v3_MiniLM-L6
El proyecto tiene como objetivo entrenar modelos de incrustaciones de oraciones en conjuntos de datos a nivel de oración muy grandes utilizando un objetivo de aprendizaje contrastivo auto-supervisado. Usamos el modelo 'MiniLM-L6-H384-uncased' previamente entrenado y lo afinamos en un conjunto de datos de 1 mil millones de pares de oraciones. Utilizamos un objetivo de aprendizaje contrastivo: dada una oración del par, el modelo debe predecir cuál de un conjunto de otras oraciones muestreadas aleatoriamente fue realmente emparejada con ella en nuestro conjunto de datos. Desarrollamos este modelo durante la semana de la comunidad utilizando JAX/Flax para PLN y CV, organizada por Hugging Face. Desarrollamos este modelo como parte del proyecto: Entrena el Mejor Modelo de Incrustación de Oraciones con 1B Pares de Entrenamiento. Nos beneficiamos de una infraestructura de hardware eficiente para ejecutar el proyecto: 7 TPUs v3-8, así como la intervención de miembros del equipo de Flax, JAX y Cloud de Google sobre marcos eficientes de aprendizaje profundo.
Como usar
Aquí se explica cómo usar este modelo para obtener las características de un texto dado usando la biblioteca SentenceTransformers:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer('flax-sentence-embeddings/all_datasets_v3_MiniLM-L6')
text = "Reemplázame por cualquier texto que desees."
text_embbedding = model.encode(text)
# array([-0.01559514, 0.04046123, 0.1317083 , 0.00085931, 0.04585106,
# -0.05607086, 0.0138078 , 0.03569756, 0.01420381, 0.04266302 ...],
# dtype=float32)
Funcionalidades
- Embeddings de oraciones utilizando aprendizaje contrastivo auto-supervisado
- Aprovechamiento del modelo preentrenado 'MiniLM-L6-H384-uncased'
- Afinado en un conjunto de datos de 1 mil millones de pares de oraciones
- Desarrollo utilizando JAX/Flax para PLN y CV
Casos de uso
- Codificación de oraciones
- Recuperación de información
- Agrupación de oraciones
- Tareas de similitud de oraciones