e5 cogcache small

srikarvar

Similitud de oraciones

Este es un modelo de sentence-transformers afinado a partir de intfloat/multilingual-e5-small. Mapea oraciones y párrafos a un espacio vectorial denso de 384 dimensiones y se puede usar para similitud textual semántica, búsqueda semántica, minería de paráfrasis, clasificación de texto, agrupamiento y más.

Como usar

# Primero instala la biblioteca Sentence Transformers:
pip install -U sentence-transformers

# Luego puedes cargar este modelo y ejecutar inferencias.
from sentence_transformers import SentenceTransformer

# Descargar desde el Hub de 🤗
model = SentenceTransformer('srikarvar/e5-small-cogcachedata')
# Ejecutar inferencia
sentences = [
    'How can I improve my Spanish?',
    'How can I improve my English?',
    'How can I lose weight?',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 384]

# Obtener los puntajes de similitud para las incrustaciones (embeddings)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Funcionalidades

Modelo de transformer de oraciones
Modelo base: intfloat/multilingual-e5-small
Longitud máxima de secuencia: 512 tokens
Dimensionalidad de salida: 384 tokens
Función de similitud: Similitud coseno
Licencia: apache-2.0
Evaluado usando Cosine Accuracy, Cosine F1, Cosine Precision, Cosine Recall, Cosine AP, Dot Accuracy, Dot F1, Dot Precision, Dot Recall, Dot AP, Manhattan Accuracy, Manhattan F1, Manhattan Precision, Manhattan Recall, Manhattan AP, Euclidean Accuracy, Euclidean F1, Euclidean Precision, Euclidean Recall y Euclidean AP

Casos de uso

Similitud textual semántica
Búsqueda semántica
Minería de paráfrasis
Clasificación de texto
Agrupamiento