jina-embedding-l-en-v1

jinaai

Similitud de oraciones

jina-embedding-l-en-v1 es un modelo de lenguaje entrenado utilizando el dataset Linnaeus-Clean de Jina AI. Este dataset consta de 380 millones de pares de oraciones, que incluyen pares de consulta-documento de varios dominios. Los pares fueron seleccionados cuidadosamente a través de un proceso de limpieza exhaustivo. El dataset Linnaeus-Full, del cual se deriva el dataset Linnaeus-Clean, contenía originalmente 1.6 mil millones de pares de oraciones. El modelo tiene una variedad de casos de uso, incluidos la recuperación de información, la similitud textual semántica, la reordenación de texto y más. Con un tamaño de 330 millones de parámetros, el modelo permite la inferencia en una sola GPU y ofrece un mejor rendimiento que nuestros modelos pequeños y base.

Como usar

**Uso con Jina AI Finetuner**

!pip install finetuner
import finetuner

model = finetuner.build_model('jinaai/jina-embedding-l-en-v1')
embeddings = finetuner.encode(
model=model,
data=['how is the weather today', 'What is the current weather like today?']
)
print(finetuner.cos_sim(embeddings[0], embeddings[1]))

**Uso con sentence-transformers:**

from sentence_transformers import SentenceTransformer
from sentence_transformers.util import cos_sim

sentences = ['how is the weather today', 'What is the current weather like today?']

model = SentenceTransformer('jinaai/jina-embedding-b-en-v1')
embeddings = model.encode(sentences)
print(cos_sim(embeddings[0], embeddings[1]))

Funcionalidades

Entrenado con el dataset Linnaeus-Clean de Jina AI
Consta de 380 millones de pares de oraciones
Diseñado para la recuperación de información, similitud textual semántica y reordenación de texto
330 millones de parámetros, adecuado para inferencia en una sola GPU
Rendimiento superior comparado con los modelos más pequeños

Casos de uso

Recuperación de información
Similitud textual semántica
Reordenación de texto