jina-reranker-v2-base-multilingual
El Jina Reranker v2 (jina-reranker-v2-base-multilingual) es un modelo basado en transformers que ha sido ajustado para la tarea de reordenamiento de texto, que es un componente crucial en muchos sistemas de recuperación de información. Es un modelo de cross-encoder que toma un par de consulta y documento como entrada y genera una puntuación que indica la relevancia del documento respecto a la consulta. El modelo está entrenado en un gran conjunto de datos de pares consulta-documento y es capaz de reordenar documentos en múltiples idiomas con alta precisión. Comparado con los modelos de reordenamiento de última generación, incluyendo el previamente lanzado jina-reranker-v1-base-en, el modelo Jina Reranker v2 ha demostrado ser competitivo en una serie de benchmarks dirigidos a la recuperación de texto, capacidad multilingüe, reordenamiento consciente de llamadas a funciones y consciente de texto a SQL, y tareas de recuperación de código.
Como usar
Este repositorio de modelos está licenciado para propósitos de investigación y evaluación bajo la licencia CC-BY-NC-4.0. Para uso comercial, consulte las API de Jina AI, las ofertas de AWS Sagemaker o Azure Marketplace. Por favor, contáctenos para cualquier aclaración adicional.
La manera más fácil de usar jina-reranker-v2-base-multilingual es llamar a la API Reranker de Jina AI.
curl https://api.jina.ai/v1/rerank \
-H "Content-Type: application/json" \
-H "Authorization: Bearer YOUR_API_KEY" \
-d '{
"model": "jina-reranker-v2-base-multilingual",
"query": "Organic skincare products for sensitive skin",
"documents": [
"Organic skincare for sensitive skin with aloe vera and chamomile.",
"New makeup trends focus on bold colors and innovative techniques",
"Bio-Hautpflege für empfindliche Haut mit Aloe Vera und Kamille",
"Neue Make-up-Trends setzen auf kräftige Farben und innovative Techniken",
"Cuidado de la piel orgánico para piel sensible con aloe vera y manzanilla",
"Las nuevas tendencias de maquillaje se centran en colores vivos y técnicas innovadoras",
"针对敏感肌专门设计的天然有机护肤产品",
"新的化妆趋势注重鲜艳的颜色和创新的技巧",
"敏感肌のために特別に設計された天然有機スキンケア製品",
"新しいメイクのトレンドは鮮やかな色と革新的な技術に焦点を当てています"
],
"top_n": 3
}'
También puede usar la librería transformers para interactuar con el modelo programáticamente.
Antes de comenzar, instale las librerías transformers y einops:
pip install transformers einops
Luego:
from transformers import AutoModelForSequenceClassification
model = AutoModelForSequenceClassification.from_pretrained(
'jinaai/jina-reranker-v2-base-multilingual',
torch_dtype="auto",
trust_remote_code=True,
)
model.to('cuda') # o 'cpu' si no hay GPU disponible
model.eval()
# Consulta y documentos de ejemplo
query = "Organic skincare products for sensitive skin"
documents = [
"Organic skincare for sensitive skin with aloe vera and chamomile.",
"New makeup trends focus on bold colors and innovative techniques",
"Bio-Hautpflege für empfindliche Haut mit Aloe Vera und Kamille",
"Neue Make-up-Trends setzen auf kräftige Farben und innovative Techniken",
"Cuidado de la piel orgánico para piel sensible con aloe vera y manzanilla",
"Las nuevas tendencias de maquillaje se centran en colores vivos y técnicas innovadoras",
"针对敏感肌专门设计的天然有机护肤产品",
"新的化妆趋势注重鲜艳的颜色和创新的技巧",
"敏感肌のために特別に設計された天然有機スキンケア製品",
"新しいメイクのトレンドは鮮やかな色と革新的な技術に焦点を当てています",
]
# Construir pares de frases
sentence_pairs = [[query, doc] for doc in documents]
scores = model.compute_score(sentence_pairs, max_length=1024)
Los puntajes serán una lista de flotantes, donde cada flotante representa la puntuación de relevancia del documento correspondiente a la consulta. Puntuaciones más altas indican mayor relevancia.
Funcionalidades
- Capacidad multilingüe
- Manejo de textos largos hasta 1024 tokens
- Mecanismo de atención rápida
- Enfoque de window deslizante para textos largos
- Alta precisión en tareas de reordenamiento de textos
- Capacidad de reordenamiento consciente de funciones y de texto a SQL
- Rendimiento competitivo en benchmarks de recuperación de información
Casos de uso
- Reordenamiento de documentos en sistemas de recuperación de información
- Reordenamiento de consultas multi-idioma
- Integración en APIs de reordenamiento en línea
- Tareas de recuperación de código
- Reordenamiento consciente de llamadas a funciones