jina-embedding-l-en-v1
jina-embedding-l-en-v1 es un modelo de lenguaje entrenado utilizando el dataset Linnaeus-Clean de Jina AI. Este dataset consta de 380 millones de pares de oraciones, que incluyen pares de consulta-documento de varios dominios. Los pares fueron seleccionados cuidadosamente a través de un proceso de limpieza exhaustivo. El dataset Linnaeus-Full, del cual se deriva el dataset Linnaeus-Clean, contenía originalmente 1.6 mil millones de pares de oraciones. El modelo tiene una variedad de casos de uso, incluidos la recuperación de información, la similitud textual semántica, la reordenación de texto y más. Con un tamaño de 330 millones de parámetros, el modelo permite la inferencia en una sola GPU y ofrece un mejor rendimiento que nuestros modelos pequeños y base.
Como usar
**Uso con Jina AI Finetuner**
!pip install finetuner
import finetuner
model = finetuner.build_model('jinaai/jina-embedding-l-en-v1')
embeddings = finetuner.encode(
model=model,
data=['how is the weather today', 'What is the current weather like today?']
)
print(finetuner.cos_sim(embeddings[0], embeddings[1]))
**Uso con sentence-transformers:**
from sentence_transformers import SentenceTransformer
from sentence_transformers.util import cos_sim
sentences = ['how is the weather today', 'What is the current weather like today?']
model = SentenceTransformer('jinaai/jina-embedding-b-en-v1')
embeddings = model.encode(sentences)
print(cos_sim(embeddings[0], embeddings[1]))
Funcionalidades
- Entrenado con el dataset Linnaeus-Clean de Jina AI
- Consta de 380 millones de pares de oraciones
- Diseñado para la recuperación de información, similitud textual semántica y reordenación de texto
- 330 millones de parámetros, adecuado para inferencia en una sola GPU
- Rendimiento superior comparado con los modelos más pequeños
Casos de uso
- Recuperación de información
- Similitud textual semántica
- Reordenación de texto