answer-finder-v1-S-en

sinequa
Pregunta y respuesta

Este modelo es un modelo de respuestas a preguntas desarrollado por Sinequa. Produce dos listas de puntuaciones logit correspondientes al token de inicio y al token de final de una respuesta.

Como usar

Este modelo se usa para responder a preguntas utilizando las puntuaciones logit para identificar el token de inicio y el token de final de una respuesta.

Tiempo de inferencia

| GPU | Tipo de cuantización | Tamaño de lote 1 | Tamaño de lote 32 | |-----------|----------------------|------------------|-------------------| | NVIDIA A10 | FP16 | 1 ms | 10 ms | | NVIDIA A10 | FP32 | 3 ms | 43 ms | | NVIDIA T4 | FP16 | 2 ms | 22 ms | | NVIDIA T4 | FP32 | 5 ms | 130 ms | | NVIDIA L4 | FP16 | 2 ms | 12 ms | | NVIDIA L4 | FP32 | 5 ms | 62 ms |

Uso de memoria GPU

| Tipo de cuantización | Memoria | |-----------------------------|----------------| | FP16 | 300 MiB | | FP32 | 550 MiB |

Requisitos

  • Versión mínima de Sinequa: 11.10.0
  • Versión mínima de Sinequa para usar modelos FP16 y GPU con capacidad de cálculo CUDA de 8.9+ (como NVIDIA L4): 11.11.0
  • Capacidad de cálculo CUDA: superior a 5.0 (superior a 6.0 para uso de FP16)

Funcionalidades

Modelo de respuestas a preguntas
Desarrollado por Sinequa
Produce puntuaciones logit para tokens de inicio y final
Insensible a mayúsculas y acentos
Basado en el modelo de lenguaje microsoft/MiniLM-L12-H384-uncased
Consta de 33 millones de parámetros
Utiliza la evaluación de F1 Score en el conjunto de datos SQuAD v2

Casos de uso

Responder preguntas usando el modelo de inferencia
Implementación en endpoints de consulta