GIST-Embedding-v0
avsolatorio
Similitud de oraciones
GISTEmbed: Selección guiada de negativos de entrenamiento en la muestra para la optimización de incrustaciones de texto. El modelo está afinado sobre la base del BAAI/bge-base-en-v1.5 utilizando el conjunto de datos MEDI, complementado con tripletes del conjunto de datos de entrenamiento de clasificación MTEB (excluyendo datos de la tarea de clasificación de polaridad de Amazon). El modelo no requiere instrucciones para generar incrustaciones. Esto significa que las consultas para tareas de recuperación se pueden codificar directamente sin crear instrucciones.
Como usar
El modelo se puede cargar fácilmente utilizando la biblioteca Sentence Transformers.
import torch.nn.functional as F
from sentence_transformers import SentenceTransformer
revision = None # Reemplázalo con la revisión específica para asegurar la reproducibilidad si el modelo se actualiza.
model = SentenceTransformer("avsolatorio/GIST-Embedding-v0", revision=revision)
texts = [
"Ilustración del modelo REaLTabFormer. El bloque izquierdo muestra el modelo de datos tabulares no relacionales utilizando GPT-2 con una cabeza LM causal. En contraste, el bloque derecho muestra cómo se modela una tabla hija de un conjunto de datos relacional utilizando un modelo de secuencia a secuencia (Seq2Seq). El modelo Seq2Seq utiliza las observaciones en la tabla padre para condicionar la generación de las observaciones en la tabla hija. El modelo GPT-2 entrenado en la tabla padre, con pesos congelados, también se utiliza como codificador en el modelo Seq2Seq.",
"Predecir la movilidad humana tiene un valor práctico significativo, con aplicaciones que van desde mejorar la planificación de riesgos de desastres hasta simular la propagación de epidemias. En este artículo, presentamos el GeoFormer, un modelo transformador solo de decodificador adaptado de la arquitectura GPT para pronosticar la movilidad humana.",
"A medida que las economías del sudeste asiático continúan adoptando tecnologías digitales, los encargados de formular políticas preguntan cada vez más cómo preparar a la fuerza laboral para las demandas laborales emergentes. Sin embargo, se sabe poco sobre las habilidades que los trabajadores necesitan para adaptarse a estos cambios."
]
# Calcular incrustaciones
embeddings = model.encode(texts, convert_to_tensor=True)
# Calcular la similaridad coseno para cada par de oraciones
scores = F.cosine_similarity(embeddings.unsqueeze(1), embeddings.unsqueeze(0), dim=-1)
print(scores.cpu().numpy())
Funcionalidades
- Optimización basada en la selección guiada de negativos de entrenamiento
- Utiliza los conjuntos de datos MEDI y MTEB para el entrenamiento
- No requiere instrucciones para generar incrustaciones
Casos de uso
- Incrustaciones de texto para tareas de recuperación
- Mejora en la planificación de riesgos de desastres
- Simulación de la propagación de epidemias
- Preparación de la fuerza laboral para demandas laborales emergentes en economías digitales