jina-embedding-b-en-v1

jinaai
Similitud de oraciones

jina-embedding-b-en-v1 es un modelo de lenguaje entrenado por el equipo de Jina AI y Finetuner, utilizando el conjunto de datos Linnaeus-Clean de Jina AI. Este conjunto de datos consiste en 380 millones de pares de oraciones, que incluyen pares de consulta-documento. Estos pares se obtuvieron de varios dominios y se seleccionaron meticulosamente mediante un proceso de limpieza exhaustivo. El conjunto de datos Linnaeus-Full, del cual se deriva Linnaeus-Clean, contenía originalmente 1.6 mil millones de pares de oraciones. El modelo tiene una variedad de casos de uso, incluyendo recuperación de información, similitud textual semántica, reranqueo de texto y más. Con un tamaño estándar de 110 millones de parámetros, el modelo permite una inferencia rápida y ofrece un mejor rendimiento que nuestro modelo pequeño. Se recomienda usar una sola GPU para la inferencia.

Como usar

Uso con Jina AI Finetuner:

!pip install finetuner
import finetuner

model = finetuner.build_model('jinaai/jina-embedding-b-en-v1')
embeddings = finetuner.encode(
model=model,
data=['how is the weather today', 'What is the current weather like today?']
)
print(finetuner.cos_sim(embeddings[0], embeddings[1]))

Uso con sentence-transformers:

from sentence_transformers import SentenceTransformer
from sentence_transformers.util import cos_sim

sentences = ['how is the weather today', 'What is the current weather like today?']

model = SentenceTransformer('jinaai/jina-embedding-b-en-v1')
embeddings = model.encode(sentences)
print(cos_sim(embeddings[0], embeddings[1]))

Funcionalidades

Modelo de lenguaje entrenado con el conjunto de datos Linnaeus-Clean
380 millones de pares de oraciones
Recuperación de información
Similitud textual semántica
Reranqueo de texto
110 millones de parámetros
Inferencia rápida
Requiere una sola GPU para inferencia

Casos de uso

Recuperación de información
Similitud textual semántica
Reranqueo de texto