e5 cogcache small
srikarvar
Similitud de oraciones
Este es un modelo de sentence-transformers afinado a partir de intfloat/multilingual-e5-small. Mapea oraciones y párrafos a un espacio vectorial denso de 384 dimensiones y se puede usar para similitud textual semántica, búsqueda semántica, minería de paráfrasis, clasificación de texto, agrupamiento y más.
Como usar
# Primero instala la biblioteca Sentence Transformers:
pip install -U sentence-transformers
# Luego puedes cargar este modelo y ejecutar inferencias.
from sentence_transformers import SentenceTransformer
# Descargar desde el Hub de 🤗
model = SentenceTransformer('srikarvar/e5-small-cogcachedata')
# Ejecutar inferencia
sentences = [
'How can I improve my Spanish?',
'How can I improve my English?',
'How can I lose weight?',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 384]
# Obtener los puntajes de similitud para las incrustaciones (embeddings)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Funcionalidades
- Modelo de transformer de oraciones
- Modelo base: intfloat/multilingual-e5-small
- Longitud máxima de secuencia: 512 tokens
- Dimensionalidad de salida: 384 tokens
- Función de similitud: Similitud coseno
- Licencia: apache-2.0
- Evaluado usando Cosine Accuracy, Cosine F1, Cosine Precision, Cosine Recall, Cosine AP, Dot Accuracy, Dot F1, Dot Precision, Dot Recall, Dot AP, Manhattan Accuracy, Manhattan F1, Manhattan Precision, Manhattan Recall, Manhattan AP, Euclidean Accuracy, Euclidean F1, Euclidean Precision, Euclidean Recall y Euclidean AP
Casos de uso
- Similitud textual semántica
- Búsqueda semántica
- Minería de paráfrasis
- Clasificación de texto
- Agrupamiento