flax-sentence-embeddings/all_datasets_v4_MiniLM-L6
El proyecto tiene como objetivo entrenar modelos de embeddings de oraciones en conjuntos de datos de nivel de oración muy grandes utilizando un objetivo de aprendizaje contrastivo autoguiado. Utilizamos el modelo preentrenado 'MiniLM-L6-H384-uncased' y lo afinamos en un conjunto de datos de 1 billón de pares de oraciones. Usamos un objetivo de aprendizaje contrastivo: dada una oración del par, el modelo debe predecir cuál, de un conjunto de otras oraciones muestreadas aleatoriamente, fue realmente emparejada con ella en nuestro conjunto de datos. Desarrollamos este modelo durante la semana de la comunidad utilizando JAX/Flax para NLP & CV, organizada por Hugging Face. Desarrollamos este modelo como parte del proyecto: Entrenar el mejor modelo de embeddings de oraciones de la historia con 1 billón de pares de entrenamiento. Nos beneficiamos de una infraestructura de hardware eficiente para ejecutar el proyecto: 7 TPUs v3-8, así como la intervención de miembros del equipo de Flax, JAX y Cloud de Google sobre marcos eficientes de aprendizaje profundo.
Como usar
Aquí se muestra cómo usar este modelo para obtener las características de un texto dado utilizando la biblioteca SentenceTransformers:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer('flax-sentence-embeddings/all_datasets_v4_MiniLM-L6')
text = "Reemplázame por cualquier texto que desees."
text_embbedding = model.encode(text)
# array([-0.01559514, 0.04046123, 0.1317083 , 0.00085931, 0.04585106,
# -0.05607086, 0.0138078 , 0.03569756, 0.01420381, 0.04266302 ...],
# dtype=float32)
Funcionalidades
- Similitud de oraciones
- sentence-transformers
- PyTorch
- Extracción de características
- Inferencia de embeddings de texto
Casos de uso
- Codificación de oraciones
- Recuperación de información
- Agrupación
- Tareas de similitud de oraciones