passage-ranker.mango
sinequa
Clasificación de texto
Este modelo es un clasificador de pasajes desarrollado por Sinequa. Produce un puntaje de relevancia dado un par de consulta-pasaje y se usa para ordenar los resultados de búsqueda.
Como usar
Para usar este modelo, debes tener en cuenta los siguientes requisitos:
- Versión minima de Sinequa: 11.10.0
- Versión mínima de Sinequa para usar modelos FP16 y GPUs con capacidad de cómputo CUDA 8.9+: 11.11.0
- Capacidad de cómputo CUDA: superior a 5.0 (superior a 6.0 para el uso de FP16)
Inferencia
- NVIDIA A10 (FP16)
- Tamaño de lote 1:
2 ms
- Tamaño de lote 32:
28 ms
- NVIDIA A10 (FP32)
- Tamaño de lote 1:
4 ms
- Tamaño de lote 32:
82 ms
- NVIDIA T4 (FP16)
- Tamaño de lote 1:
3 ms
- Tamaño de lote 32:
65 ms
- NVIDIA T4 (FP32)
- Tamaño de lote 1:
14 ms
- Tamaño de lote 32:
369 ms
- NVIDIA L4 (FP16)
- Tamaño de lote 1:
3 ms
- Tamaño de lote 32:
38 ms
- NVIDIA L4 (FP32)
- Tamaño de lote 1:
5 ms
- Tamaño de lote 32:
123 ms
Uso de memoria GPU
- FP16:
850 MiB
- FP32:
1200 MiB
La memoria GPU utilizada solo incluye cuánta memoria GPU consume el modelo real en una GPU NVIDIA T4 con un tamaño de lote de 32. No incluye la cantidad fija de memoria que consume el ONNX Runtime al inicializarse, que puede ser de alrededor de 0.5 a 1 GiB dependiendo de la GPU utilizada.
Funcionalidades
- Clasificación de texto
- Transformadores BERT
- Compatibilidad con PyTorch
- Compatible con 9 idiomas
- Puntos finales de inferencia
- Procedimiento de entrenamiento MonoBERT
Casos de uso
- Ordenar resultados de búsqueda en función de la relevancia
- Clasificación de pasajes basada en consultas específicas
- Herramienta de ayuda para motores de búsqueda