jinaai/jina-embedding-s-en-v1

jinaai
Similitud de oraciones

jina-embedding-s-en-v1 es un modelo de lenguaje entrenado utilizando el dataset Linnaeus-Clean de Jina AI. Este dataset consta de 380 millones de pares de oraciones, que incluyen parejas consulta-documento obtenidas de varios dominios y seleccionadas mediante un proceso de limpieza exhaustivo. El modelo tiene una variedad de casos de uso, como recuperación de información, similitud semántica textual, reordenamiento de texto, y más. Con un tamaño compacto de solo 35 millones de parámetros, el modelo permite una inferencia extremadamente rápida mientras mantiene un rendimiento impresionante. Además, ofrecemos las siguientes opciones: jina-embedding-t-en-v1: 14 millones de parámetros, jina-embedding-b-en-v1: 110 millones de parámetros, jina-embedding-l-en-v1: 330 millones de parámetros, jina-embedding-1b-en-v1: 1.2 mil millones de parámetros (próximamente), jina-embedding-6b-en-v1: 6 mil millones de parámetros (próximamente).

Como usar

Usar con Jina AI Finetuner

!pip install finetuner
import finetuner

model = finetuner.build_model('jinaai/jina-embedding-s-en-v1')
embeddings = finetuner.encode(
  model=model,
  data=['cómo está el clima hoy', '¿Cómo es el clima actual?']
)
print(finetuner.cos_sim(embeddings[0], embeddings[1]))

Usar con sentence-transformers:

from sentence_transformers import SentenceTransformer
from sentence_transformers.util import cos_sim

sentences = ['cómo está el clima hoy', '¿Cómo es el clima actual?']

model = SentenceTransformer('jinaai/jina-embedding-s-en-v1')
embeddings = model.encode(sentences)
print(cos_sim(embeddings[0], embeddings[1]))

Funcionalidades

Entrenado con el dataset Linnaeus-Clean de Jina AI compuesto por 380 millones de pares de oraciones
Recuperación de información
Similitud semántica textual
Reordenamiento de texto
Inferencia extremadamente rápida
35 millones de parámetros
Compatibilidad con PyTorch y sentence-transformers

Casos de uso

Recuperación de información
Similitud textual semántica
Reordenamiento de textos
Clasificación de textos
Sistemas de recomendaciones