hku-nlp/instructor-large

hku-nlp

Similitud de oraciones

Este es un modelo de embedding general: mapea cualquier pieza de texto (por ejemplo, un título, una oración, un documento, etc.) a un vector de longitud fija en tiempo de prueba sin necesidad de entrenamiento adicional. Con instrucciones, los embeddings son específicos de dominio (por ejemplo, especializados para ciencias, finanzas, etc.) y conscientes de tareas (por ejemplo, personalizados para clasificación, recuperación de información, etc.). El modelo es fácil de usar con la biblioteca sentence-transformer.

Como usar

# Instalación

git clone https://github.com/HKUNLP/instructor-embedding
cd sentence-transformers
pip install -e .

# Calcular embeddings personalizados

desde sentence_transformers import SentenceTransformer
sentence = "3D ActionSLAM: wearable person tracking in multi-floor environments"
instruction = "Represent the Science title; Input:"
model = SentenceTransformer('hku-nlp/instructor-large')
embeddings = model.encode([[instruction,sentence,0]])
print(embeddings)

# Calcular similitudes de oraciones

from sklearn.metrics.pairwise import cosine_similarity
sentences_a = [['Represent the Science sentence; Input: ','Parton energy loss in QCD matter',0], 
['Represent the Financial statement; Input: ','The Federal Reserve on Wednesday raised its benchmark interest rate.',0]
sentences_b = [['Represent the Science sentence; Input: ','The Chiral Phase Transition in Dissipative Dynamics', 0],
['Represent the Financial statement; Input: ','The funds rose less than 0.5 per cent on Friday',0]]
embeddings_a = model.encode(sentences_a)
embeddings_b = model.encode(sentences_b)
similarities = cosine_similarity(embeddings_a,embeddings_b)
print(similarities)

Funcionalidades

Compatibilidad con la biblioteca sentence-transformers
Generación de embeddings específicos de dominio y conscientes de tareas
Extracción de características
Compatibilidad con PyTorch
Etiqueta de similitud de oraciones (sentence-similarity)

Casos de uso

Similitud de oraciones
Extracción de características
Embeddings específicos de dominio
Embeddings conscientes de tareas
Clasificación
Recuperación de información