jina-embedding-b-en-v1
jina-embedding-b-en-v1 es un modelo de lenguaje entrenado por el equipo de Jina AI y Finetuner, utilizando el conjunto de datos Linnaeus-Clean de Jina AI. Este conjunto de datos consiste en 380 millones de pares de oraciones, que incluyen pares de consulta-documento. Estos pares se obtuvieron de varios dominios y se seleccionaron meticulosamente mediante un proceso de limpieza exhaustivo. El conjunto de datos Linnaeus-Full, del cual se deriva Linnaeus-Clean, contenía originalmente 1.6 mil millones de pares de oraciones. El modelo tiene una variedad de casos de uso, incluyendo recuperación de información, similitud textual semántica, reranqueo de texto y más. Con un tamaño estándar de 110 millones de parámetros, el modelo permite una inferencia rápida y ofrece un mejor rendimiento que nuestro modelo pequeño. Se recomienda usar una sola GPU para la inferencia.
Como usar
Uso con Jina AI Finetuner:
!pip install finetuner
import finetuner
model = finetuner.build_model('jinaai/jina-embedding-b-en-v1')
embeddings = finetuner.encode(
model=model,
data=['how is the weather today', 'What is the current weather like today?']
)
print(finetuner.cos_sim(embeddings[0], embeddings[1]))
Uso con sentence-transformers:
from sentence_transformers import SentenceTransformer
from sentence_transformers.util import cos_sim
sentences = ['how is the weather today', 'What is the current weather like today?']
model = SentenceTransformer('jinaai/jina-embedding-b-en-v1')
embeddings = model.encode(sentences)
print(cos_sim(embeddings[0], embeddings[1]))
Funcionalidades
- Modelo de lenguaje entrenado con el conjunto de datos Linnaeus-Clean
- 380 millones de pares de oraciones
- Recuperación de información
- Similitud textual semántica
- Reranqueo de texto
- 110 millones de parámetros
- Inferencia rápida
- Requiere una sola GPU para inferencia
Casos de uso
- Recuperación de información
- Similitud textual semántica
- Reranqueo de texto