jina-embedding-t-en-v1
jinaai
Similitud de oraciones
jina-embedding-t-en-v1 es un modelo de lenguaje pequeño que ha sido entrenado usando el conjunto de datos Linnaeus-Clean de Jina AI. Este conjunto de datos consta de 380 millones de pares de oraciones, que incluyen tanto pares de consulta-documento. Estos pares se obtuvieron de varios dominios y se seleccionaron cuidadosamente mediante un proceso minucioso de limpieza. Con un tamaño de parámetro pequeño de solo 14 millones de parámetros, el modelo permite una inferencia extremadamente rápida en CPU, y aún así proporciona un rendimiento impresionante.
Como usar
Usar con Jina AI Finetuner:
!pip install finetuner
import finetuner
model = finetuner.build_model('jinaai/jina-embedding-t-en-v1')
embeddings = finetuner.encode(
model=model,
data=['how is the weather today', 'What is the current weather like today?']
)
print(finetuner.cos_sim(embeddings[0], embeddings[1]))
Usar con sentence-transformers:
from sentence_transformers import SentenceTransformer
from sentence_transformers.util import cos_sim
sentences = ['how is the weather today', 'What is the current weather like today?']
model = SentenceTransformer('jinaai/jina-embedding-t-en-v1')
embeddings = model.encode(sentences)
print(cos_sim(embeddings[0], embeddings[1]))
Funcionalidades
- Modelo de lenguaje pequeño.
- Entrenado con el conjunto de datos Linnaeus-Clean.
- 380 millones de pares de oraciones cuidadosamente seleccionados.
- 14 millones de parámetros.
- Permite una inferencia rápida en CPU.
- Alto rendimiento en tareas de recuperación de información y similitud textual semántica.
Casos de uso
- Recuperación de información.
- Similitud textual semántica.
- Rerankeo de texto.