passage-ranker.mango

FP16: 850 MiB
FP32: 1200 MiB

sinequa

Clasificación de texto

Este modelo es un clasificador de pasajes desarrollado por Sinequa. Produce un puntaje de relevancia dado un par de consulta-pasaje y se usa para ordenar los resultados de búsqueda.

Como usar

Para usar este modelo, debes tener en cuenta los siguientes requisitos:

Versión minima de Sinequa: 11.10.0
Versión mínima de Sinequa para usar modelos FP16 y GPUs con capacidad de cómputo CUDA 8.9+: 11.11.0
Capacidad de cómputo CUDA: superior a 5.0 (superior a 6.0 para el uso de FP16)

Inferencia

NVIDIA A10 (FP16)

Tamaño de lote 1: 2 ms
Tamaño de lote 32: 28 ms


NVIDIA A10 (FP32)

Tamaño de lote 1: 4 ms
Tamaño de lote 32: 82 ms


NVIDIA T4 (FP16)

Tamaño de lote 1: 3 ms
Tamaño de lote 32: 65 ms


NVIDIA T4 (FP32)

Tamaño de lote 1: 14 ms
Tamaño de lote 32: 369 ms


NVIDIA L4 (FP16)

Tamaño de lote 1: 3 ms
Tamaño de lote 32: 38 ms


NVIDIA L4 (FP32)

Tamaño de lote 1: 5 ms
Tamaño de lote 32: 123 ms



Uso de memoria GPU

FP16: 850 MiB
FP32: 1200 MiB

La memoria GPU utilizada solo incluye cuánta memoria GPU consume el modelo real en una GPU NVIDIA T4 con un tamaño de lote de 32. No incluye la cantidad fija de memoria que consume el ONNX Runtime al inicializarse, que puede ser de alrededor de 0.5 a 1 GiB dependiendo de la GPU utilizada.

Funcionalidades

Clasificación de texto
Transformadores BERT
Compatibilidad con PyTorch
Compatible con 9 idiomas
Puntos finales de inferencia
Procedimiento de entrenamiento MonoBERT

Casos de uso

Ordenar resultados de búsqueda en función de la relevancia
Clasificación de pasajes basada en consultas específicas
Herramienta de ayuda para motores de búsqueda