jina-reranker-v2-base-multilingual

jinaai

Clasificación de texto

El Jina Reranker v2 (jina-reranker-v2-base-multilingual) es un modelo basado en transformers que ha sido ajustado para la tarea de reordenamiento de texto, que es un componente crucial en muchos sistemas de recuperación de información. Es un modelo de cross-encoder que toma un par de consulta y documento como entrada y genera una puntuación que indica la relevancia del documento respecto a la consulta. El modelo está entrenado en un gran conjunto de datos de pares consulta-documento y es capaz de reordenar documentos en múltiples idiomas con alta precisión. Comparado con los modelos de reordenamiento de última generación, incluyendo el previamente lanzado jina-reranker-v1-base-en, el modelo Jina Reranker v2 ha demostrado ser competitivo en una serie de benchmarks dirigidos a la recuperación de texto, capacidad multilingüe, reordenamiento consciente de llamadas a funciones y consciente de texto a SQL, y tareas de recuperación de código.

Como usar

Este repositorio de modelos está licenciado para propósitos de investigación y evaluación bajo la licencia CC-BY-NC-4.0. Para uso comercial, consulte las API de Jina AI, las ofertas de AWS Sagemaker o Azure Marketplace. Por favor, contáctenos para cualquier aclaración adicional.
La manera más fácil de usar jina-reranker-v2-base-multilingual es llamar a la API Reranker de Jina AI.
curl https://api.jina.ai/v1/rerank \
-H "Content-Type: application/json" \
-H "Authorization: Bearer YOUR_API_KEY" \
-d '{
"model": "jina-reranker-v2-base-multilingual",
"query": "Organic skincare products for sensitive skin",
"documents": [
"Organic skincare for sensitive skin with aloe vera and chamomile.",
"New makeup trends focus on bold colors and innovative techniques",
"Bio-Hautpflege für empfindliche Haut mit Aloe Vera und Kamille",
"Neue Make-up-Trends setzen auf kräftige Farben und innovative Techniken",
"Cuidado de la piel orgánico para piel sensible con aloe vera y manzanilla",
"Las nuevas tendencias de maquillaje se centran en colores vivos y técnicas innovadoras",
"针对敏感肌专门设计的天然有机护肤产品",
"新的化妆趋势注重鲜艳的颜色和创新的技巧",
"敏感肌のために特別に設計された天然有機スキンケア製品",
"新しいメイクのトレンドは鮮やかな色と革新的な技術に焦点を当てています"
],
"top_n": 3
}'

También puede usar la librería transformers para interactuar con el modelo programáticamente.
Antes de comenzar, instale las librerías transformers y einops:
pip install transformers einops

Luego:
from transformers import AutoModelForSequenceClassification

model = AutoModelForSequenceClassification.from_pretrained(
'jinaai/jina-reranker-v2-base-multilingual',
torch_dtype="auto",
trust_remote_code=True,
)

model.to('cuda') # o 'cpu' si no hay GPU disponible
model.eval()

# Consulta y documentos de ejemplo
query = "Organic skincare products for sensitive skin"
documents = [
"Organic skincare for sensitive skin with aloe vera and chamomile.",
"New makeup trends focus on bold colors and innovative techniques",
"Bio-Hautpflege für empfindliche Haut mit Aloe Vera und Kamille",
"Neue Make-up-Trends setzen auf kräftige Farben und innovative Techniken",
"Cuidado de la piel orgánico para piel sensible con aloe vera y manzanilla",
"Las nuevas tendencias de maquillaje se centran en colores vivos y técnicas innovadoras",
"针对敏感肌专门设计的天然有机护肤产品",
"新的化妆趋势注重鲜艳的颜色和创新的技巧",
"敏感肌のために特別に設計された天然有機スキンケア製品",
"新しいメイクのトレンドは鮮やかな色と革新的な技術に焦点を当てています",
]

# Construir pares de frases
sentence_pairs = [[query, doc] for doc in documents]

scores = model.compute_score(sentence_pairs, max_length=1024)

Los puntajes serán una lista de flotantes, donde cada flotante representa la puntuación de relevancia del documento correspondiente a la consulta. Puntuaciones más altas indican mayor relevancia.

Funcionalidades

Capacidad multilingüe
Manejo de textos largos hasta 1024 tokens
Mecanismo de atención rápida
Enfoque de window deslizante para textos largos
Alta precisión en tareas de reordenamiento de textos
Capacidad de reordenamiento consciente de funciones y de texto a SQL
Rendimiento competitivo en benchmarks de recuperación de información

Casos de uso

Reordenamiento de documentos en sistemas de recuperación de información
Reordenamiento de consultas multi-idioma
Integración en APIs de reordenamiento en línea
Tareas de recuperación de código
Reordenamiento consciente de llamadas a funciones