vectorizador-v1-S-multilingüe
sinequa
Similitud de oraciones
Este modelo es un vectorizador desarrollado por Sinequa. Produce un vector de embeddings dado un pasaje o una consulta. Los vectores de pasaje se almacenan en nuestro índice de vectores y el vector de consulta se utiliza en el momento de la consulta para buscar pasajes relevantes en el índice.
Como usar
Este modelo puede ser utilizado en un entorno de inferencia para obtener vectores de embeddings de consultas y pasajes para la recuperación de información.
Tiempos de inferencia
- NVIDIA A10
- FP16: 1 ms (tamaño de lote 1), 5 ms (tamaño de lote 32)
- FP32: 3 ms (tamaño de lote 1), 14 ms (tamaño de lote 32)
- NVIDIA T4
- FP16: 1 ms (tamaño de lote 1), 12 ms (tamaño de lote 32)
- FP32: 2 ms (tamaño de lote 1), 52 ms (tamaño de lote 32)
- NVIDIA L4
- FP16: 1 ms (tamaño de lote 1), 5 ms (tamaño de lote 32)
- FP32: 2 ms (tamaño de lote 1), 18 ms (tamaño de lote 32)
Uso de memoria de GPU
- FP16: 300 MiB
- FP32: 600 MiB
Requisitos:
- Versión mínima de Sinequa: 11.10.0
- Versión mínima de Sinequa para utilizar modelos FP16 y GPUs con capacidad de computo CUDA de 8.9+ (como NVIDIA L4): 11.11.0
- Capacidad de computo CUDA: mayor a 5.0 (mayor a 6.0 para uso de FP16)
Funcionalidades
- Capacidades multilingües
- Procesamiento de embeddings de texto
- Uso de Transformers y PyTorch
- Compatible con múltiples tipos de cuantización
- Soporte para uso en GPU
Casos de uso
- Recuperación de información en múltiples lenguajes
- Búsqueda de pasajes relevantes en grandes índices de texto
- Optimización de la búsqueda documental con embeddings especializados
- Aplicación en sistemas de consulta avanzada
- Integración con pipelines de procesamiento de lenguaje natural