hku-nlp/instructor-large
hku-nlp
Similitud de oraciones
Este es un modelo de embedding general: mapea cualquier pieza de texto (por ejemplo, un título, una oración, un documento, etc.) a un vector de longitud fija en tiempo de prueba sin necesidad de entrenamiento adicional. Con instrucciones, los embeddings son específicos de dominio (por ejemplo, especializados para ciencias, finanzas, etc.) y conscientes de tareas (por ejemplo, personalizados para clasificación, recuperación de información, etc.). El modelo es fácil de usar con la biblioteca sentence-transformer.
Como usar
# Instalación
git clone https://github.com/HKUNLP/instructor-embedding
cd sentence-transformers
pip install -e .
# Calcular embeddings personalizados
desde sentence_transformers import SentenceTransformer
sentence = "3D ActionSLAM: wearable person tracking in multi-floor environments"
instruction = "Represent the Science title; Input:"
model = SentenceTransformer('hku-nlp/instructor-large')
embeddings = model.encode([[instruction,sentence,0]])
print(embeddings)
# Calcular similitudes de oraciones
from sklearn.metrics.pairwise import cosine_similarity
sentences_a = [['Represent the Science sentence; Input: ','Parton energy loss in QCD matter',0],
['Represent the Financial statement; Input: ','The Federal Reserve on Wednesday raised its benchmark interest rate.',0]
sentences_b = [['Represent the Science sentence; Input: ','The Chiral Phase Transition in Dissipative Dynamics', 0],
['Represent the Financial statement; Input: ','The funds rose less than 0.5 per cent on Friday',0]]
embeddings_a = model.encode(sentences_a)
embeddings_b = model.encode(sentences_b)
similarities = cosine_similarity(embeddings_a,embeddings_b)
print(similarities)
Funcionalidades
- Compatibilidad con la biblioteca sentence-transformers
- Generación de embeddings específicos de dominio y conscientes de tareas
- Extracción de características
- Compatibilidad con PyTorch
- Etiqueta de similitud de oraciones (sentence-similarity)
Casos de uso
- Similitud de oraciones
- Extracción de características
- Embeddings específicos de dominio
- Embeddings conscientes de tareas
- Clasificación
- Recuperación de información