answer-finder-v1-S-en
Este modelo es un modelo de respuestas a preguntas desarrollado por Sinequa. Produce dos listas de puntuaciones logit correspondientes al token de inicio y al token de final de una respuesta.
Como usar
Este modelo se usa para responder a preguntas utilizando las puntuaciones logit para identificar el token de inicio y el token de final de una respuesta.
Tiempo de inferencia
| GPU | Tipo de cuantización | Tamaño de lote 1 | Tamaño de lote 32 |
|-----------|----------------------|------------------|-------------------|
| NVIDIA A10 | FP16 | 1 ms | 10 ms |
| NVIDIA A10 | FP32 | 3 ms | 43 ms |
| NVIDIA T4 | FP16 | 2 ms | 22 ms |
| NVIDIA T4 | FP32 | 5 ms | 130 ms |
| NVIDIA L4 | FP16 | 2 ms | 12 ms |
| NVIDIA L4 | FP32 | 5 ms | 62 ms |
Uso de memoria GPU
| Tipo de cuantización | Memoria |
|-----------------------------|----------------|
| FP16 | 300 MiB |
| FP32 | 550 MiB |
Requisitos
- Versión mínima de Sinequa: 11.10.0
- Versión mínima de Sinequa para usar modelos FP16 y GPU con capacidad de cálculo CUDA de 8.9+ (como NVIDIA L4): 11.11.0
- Capacidad de cálculo CUDA: superior a 5.0 (superior a 6.0 para uso de FP16)
Funcionalidades
- Modelo de respuestas a preguntas
- Desarrollado por Sinequa
- Produce puntuaciones logit para tokens de inicio y final
- Insensible a mayúsculas y acentos
- Basado en el modelo de lenguaje microsoft/MiniLM-L12-H384-uncased
- Consta de 33 millones de parámetros
- Utiliza la evaluación de F1 Score en el conjunto de datos SQuAD v2
Casos de uso
- Responder preguntas usando el modelo de inferencia
- Implementación en endpoints de consulta