jina-embedding-t-en-v1

jinaai

Similitud de oraciones

jina-embedding-t-en-v1 es un modelo de lenguaje pequeño que ha sido entrenado usando el conjunto de datos Linnaeus-Clean de Jina AI. Este conjunto de datos consta de 380 millones de pares de oraciones, que incluyen tanto pares de consulta-documento. Estos pares se obtuvieron de varios dominios y se seleccionaron cuidadosamente mediante un proceso minucioso de limpieza. Con un tamaño de parámetro pequeño de solo 14 millones de parámetros, el modelo permite una inferencia extremadamente rápida en CPU, y aún así proporciona un rendimiento impresionante.

Como usar

Usar con Jina AI Finetuner:
!pip install finetuner
import finetuner

model = finetuner.build_model('jinaai/jina-embedding-t-en-v1')
embeddings = finetuner.encode(
    model=model,
    data=['how is the weather today', 'What is the current weather like today?']
)
print(finetuner.cos_sim(embeddings[0], embeddings[1]))

Usar con sentence-transformers:
from sentence_transformers import SentenceTransformer
from sentence_transformers.util import cos_sim

sentences = ['how is the weather today', 'What is the current weather like today?']

model = SentenceTransformer('jinaai/jina-embedding-t-en-v1')
embeddings = model.encode(sentences)
print(cos_sim(embeddings[0], embeddings[1]))

Funcionalidades

Modelo de lenguaje pequeño.
Entrenado con el conjunto de datos Linnaeus-Clean.
380 millones de pares de oraciones cuidadosamente seleccionados.
14 millones de parámetros.
Permite una inferencia rápida en CPU.
Alto rendimiento en tareas de recuperación de información y similitud textual semántica.

Casos de uso

Recuperación de información.
Similitud textual semántica.
Rerankeo de texto.