GIST-pequeño-Embedding-v0
avsolatorio
Similitud de oraciones
GISTEmbed: Selección Guiada In-sample de Negativos de Entrenamiento para el Ajuste Fino de Embeddings de Texto. El modelo está ajustado sobre BAAI/bge-small-en-v1.5 usando el conjunto de datos MEDI aumentado con tripletas extraídas del conjunto de datos de entrenamiento de MTEB Classification (excluyendo datos del task de Polarity Classification de Amazon). No requiere instrucciones para generar embeddings, lo que significa que las consultas para tareas de recuperación pueden codificarse directamente sin necesidad de elaborar instrucciones.
Como usar
El modelo puede ser cargado fácilmente usando la biblioteca Sentence Transformers.
import torch.nn.functional as F
from sentence_transformers import SentenceTransformer
revision = None # Reemplazar con la revisión específica para asegurar la reproducibilidad si el modelo es actualizado.
model = SentenceTransformer("avsolatorio/GIST-small-Embedding-v0", revision=revision)
texts = [
"Ilustración del modelo REaLTabFormer. El bloque izquierdo muestra el modelo de datos tabulares no relacionales usando GPT-2 con una cabeza LM causal. En contraste, el bloque derecho muestra cómo la tabla hija de un conjunto de datos relacional se modela usando un modelo de secuencia a secuencia (Seq2Seq). El modelo Seq2Seq utiliza las observaciones en la tabla padre para condicionar la generación de las observaciones en la tabla hija. El modelo GPT-2 entrenado en la tabla padre, con pesos congelados, también se usa como el codificador en el modelo Seq2Seq.",
"Predecir la movilidad humana tiene un valor práctico significativo, con aplicaciones que van desde mejorar la planificación de riesgos de desastres hasta simular la propagación de epidemias. En este artículo, presentamos el GeoFormer, un modelo transformador de solo decodificador adaptado desde la arquitectura GPT para prever la movilidad humana.",
"A medida que las economías del Sudeste Asiático continúan adoptando tecnologías digitales, los formuladores de políticas cada vez preguntan cómo preparar a la fuerza laboral para las demandas laborales emergentes. No obstante, se sabe poco sobre las habilidades que los trabajadores necesitan para adaptarse a estos cambios"
]
# Calcular embeddings
embeddings = model.encode(texts, convert_to_tensor=True)
# Calcular similitud de coseno para cada par de oraciones
scores = F.cosine_similarity(embeddings.unsqueeze(1), embeddings.unsqueeze(0), dim=-1)
print(scores.cpu().numpy())
Funcionalidades
- Ajuste fino sobre BAAI/bge-small-en-v1.5
- Uso del conjunto de datos MEDI y tripletas extraídas de MTEB Classification
- Sin necesidad de instrucciones adicionales para generar embeddings
Casos de uso
- Mejora de la precisión en tareas de clasificación de textos
- Optimización de la recuperación de información para tareas temáticas específicas
- Análisis de desempeño en contextos no dominados por el dataset de ajuste fino, como el conocimiento sobre COVID-19