GIST-all-MiniLM-L6-v2

avsolatorio
Similitud de oraciones

GISTEmbed: Selección Guiada de Negativos de Entrenamiento In-sample para el Ajuste Fino de Embedding de Texto. El modelo está ajustado sobre el sentence-transformers/all-MiniLM-L6-v2 usando el conjunto de datos MEDI aumentado con tripletes extraídos del conjunto de datos de entrenamiento MTEB Classification (exceptuando datos de la tarea Amazon Polarity Classification). El modelo no requiere instrucciones para generar embeddings, lo que significa que las consultas para tareas de recuperación pueden ser codificadas directamente sin necesidad de instrucciones adicional. Se sugiere que el conjunto de datos de ajuste fino ha perturbado considerablemente el modelo, resultando en mejoras significativas en ciertas tareas mientras que degradando el rendimiento en otras.

Como usar

El modelo puede ser fácilmente cargado utilizando la librería Sentence Transformers:

import torch.nn.functional as F
from sentence_transformers import SentenceTransformer

revision = None # Reemplaza con la revisión específica para asegurar la reproducibilidad si el modelo se actualiza.

model = SentenceTransformer("avsolatorio/GIST-all-MiniLM-L6-v2", revision=revision)

texts = [
"Illustration of the REaLTabFormer model. The left block shows the non-relational tabular data model using GPT-2 with a causal LM head. In contrast, the right block shows how a relational dataset's child table is modeled using a sequence-to-sequence (Seq2Seq) model. The Seq2Seq model uses the observations in the parent table to condition the generation of the observations in the child table. The trained GPT-2 model on the parent table, with weights frozen, is also used as the encoder in the Seq2Seq model.",
"Predicting human mobility holds significant practical value, with applications ranging from enhancing disaster risk planning to simulating epidemic spread. In this paper, we present the GeoFormer, a decoder-only transformer model adapted from the GPT architecture to forecast human mobility.",
"As the economies of Southeast Asia continue adopting digital technologies, policy makers increasingly ask how to prepare the workforce for emerging labor demands. However, little is known about the skills that workers need to adapt to these changes"
]

# Compute embeddings
embeddings = model.encode(texts, convert_to_tensor=True)

# Compute cosine-similarity for each pair of sentences
scores = F.cosine_similarity(embeddings.unsqueeze(1), embeddings.unsqueeze(0), dim=-1)

print(scores.cpu().numpy())

Funcionalidades

Transformación de oraciones
Compatible con PyTorch y ONNX
Extracción de características
Embeddings de texto
Puntos finales de inferencia

Casos de uso

Transformación y comparación de oraciones
Codificación de consultas para tareas de recuperación
Extracción de características avanzadas
Mejora y descenso de rendimiento en tareas específicas según el conjunto de datos de ajuste fino