jinaai/jina-embedding-s-en-v1
jina-embedding-s-en-v1 es un modelo de lenguaje entrenado utilizando el dataset Linnaeus-Clean de Jina AI. Este dataset consta de 380 millones de pares de oraciones, que incluyen parejas consulta-documento obtenidas de varios dominios y seleccionadas mediante un proceso de limpieza exhaustivo. El modelo tiene una variedad de casos de uso, como recuperación de información, similitud semántica textual, reordenamiento de texto, y más. Con un tamaño compacto de solo 35 millones de parámetros, el modelo permite una inferencia extremadamente rápida mientras mantiene un rendimiento impresionante. Además, ofrecemos las siguientes opciones: jina-embedding-t-en-v1: 14 millones de parámetros, jina-embedding-b-en-v1: 110 millones de parámetros, jina-embedding-l-en-v1: 330 millones de parámetros, jina-embedding-1b-en-v1: 1.2 mil millones de parámetros (próximamente), jina-embedding-6b-en-v1: 6 mil millones de parámetros (próximamente).
Como usar
Usar con Jina AI Finetuner
!pip install finetuner
import finetuner
model = finetuner.build_model('jinaai/jina-embedding-s-en-v1')
embeddings = finetuner.encode(
model=model,
data=['cómo está el clima hoy', '¿Cómo es el clima actual?']
)
print(finetuner.cos_sim(embeddings[0], embeddings[1]))
Usar con sentence-transformers:
from sentence_transformers import SentenceTransformer
from sentence_transformers.util import cos_sim
sentences = ['cómo está el clima hoy', '¿Cómo es el clima actual?']
model = SentenceTransformer('jinaai/jina-embedding-s-en-v1')
embeddings = model.encode(sentences)
print(cos_sim(embeddings[0], embeddings[1]))
Funcionalidades
- Entrenado con el dataset Linnaeus-Clean de Jina AI compuesto por 380 millones de pares de oraciones
- Recuperación de información
- Similitud semántica textual
- Reordenamiento de texto
- Inferencia extremadamente rápida
- 35 millones de parámetros
- Compatibilidad con PyTorch y sentence-transformers
Casos de uso
- Recuperación de información
- Similitud textual semántica
- Reordenamiento de textos
- Clasificación de textos
- Sistemas de recomendaciones