GIST-large-Embedding-v0
avsolatorio
Similitud de oraciones
GISTEmbed: Selección guiada de negativos de entrenamiento dentro de la muestra para ajuste fino de incrustaciones de texto. El modelo está ajustado sobre el BAAI/bge-large-en-v1.5 utilizando el conjunto de datos MEDI aumentado con tríos extraídos del conjunto de datos de entrenamiento de clasificación MTEB (excluyendo datos de la tarea de clasificación de polaridad de Amazon). El modelo no requiere ninguna instrucción para generar incrustaciones. Esto significa que las consultas para tareas de recuperación pueden codificarse directamente sin necesidad de elaborar instrucciones.
Como usar
El modelo se puede cargar fácilmente usando la biblioteca Sentence Transformers.
import torch.nn.functional as F
from sentence_transformers import SentenceTransformer
revision = None # Reemplazar con la revisión específica para asegurar la reproducibilidad si el modelo se actualiza.
model = SentenceTransformer("avsolatorio/GIST-large-Embedding-v0", revision=revision)
texts = [
"Ilustración del modelo REaLTabFormer. El bloque izquierdo muestra el modelo de datos tabulares no relacionales usando GPT-2 con una cabeza LM causal. En contraste, el bloque derecho muestra cómo se modela la tabla hija de un conjunto de datos relacional usando un modelo de secuencia a secuencia (Seq2Seq). El modelo Seq2Seq usa las observaciones en la tabla principal para condicionar la generación de las observaciones en la tabla hija. El modelo GPT-2 entrenado en la tabla principal, con pesos congelados, también se usa como codificador en el modelo Seq2Seq.",
"Predecir la movilidad humana tiene un valor práctico significativo, con aplicaciones que van desde la mejora en la planificación de riesgos de desastres hasta la simulación de la propagación de epidemias. En este documento, presentamos el GeoFormer, un modelo transformador sólo decodificador adaptado de la arquitectura GPT para pronosticar la movilidad humana.",
"A medida que las economías del sudeste asiático continúan adoptando tecnologías digitales, los responsables de políticas cada vez más preguntan cómo preparar la fuerza laboral para las crecientes demandas de trabajo. Sin embargo, se sabe poco sobre las habilidades que los trabajadores necesitan para adaptarse a estos cambios"
]
# Calcular incrustaciones
embeddings = model.encode(texts, convert_to_tensor=True)
# Calcular la similitud coseno para cada par de oraciones
scores = F.cosine_similarity(embeddings.unsqueeze(1), embeddings.unsqueeze(0), dim=-1)
print(scores.cpu().numpy())
Funcionalidades
- Ajuste fino sobre el BAAI/bge-large-en-v1.5
- Uso del conjunto de datos MEDI y trinos de MTEB
- No requiere instrucciones para generar incrustaciones
- Mejoras significativas en ciertas tareas
- Degradación de rendimiento notable en la tarea TRECCOVID debido a la falta de conocimiento significativo sobre COVID-19
Casos de uso
- Extracción de características de texto
- Tareas de recuperación de información
- Manejo y análisis de grandes volúmenes de texto
- Clasificación y clasificación de texto en diferentes contextos