vectorizador-v1-S-multilingüe

sinequa
Similitud de oraciones

Este modelo es un vectorizador desarrollado por Sinequa. Produce un vector de embeddings dado un pasaje o una consulta. Los vectores de pasaje se almacenan en nuestro índice de vectores y el vector de consulta se utiliza en el momento de la consulta para buscar pasajes relevantes en el índice.

Como usar

Este modelo puede ser utilizado en un entorno de inferencia para obtener vectores de embeddings de consultas y pasajes para la recuperación de información.

Tiempos de inferencia

  • NVIDIA A10
    • FP16: 1 ms (tamaño de lote 1), 5 ms (tamaño de lote 32)
    • FP32: 3 ms (tamaño de lote 1), 14 ms (tamaño de lote 32)
  • NVIDIA T4
    • FP16: 1 ms (tamaño de lote 1), 12 ms (tamaño de lote 32)
    • FP32: 2 ms (tamaño de lote 1), 52 ms (tamaño de lote 32)
  • NVIDIA L4
    • FP16: 1 ms (tamaño de lote 1), 5 ms (tamaño de lote 32)
    • FP32: 2 ms (tamaño de lote 1), 18 ms (tamaño de lote 32)

Uso de memoria de GPU

  • FP16: 300 MiB
  • FP32: 600 MiB

Requisitos:

  • Versión mínima de Sinequa: 11.10.0
  • Versión mínima de Sinequa para utilizar modelos FP16 y GPUs con capacidad de computo CUDA de 8.9+ (como NVIDIA L4): 11.11.0
  • Capacidad de computo CUDA: mayor a 5.0 (mayor a 6.0 para uso de FP16)

Funcionalidades

Capacidades multilingües
Procesamiento de embeddings de texto
Uso de Transformers y PyTorch
Compatible con múltiples tipos de cuantización
Soporte para uso en GPU

Casos de uso

Recuperación de información en múltiples lenguajes
Búsqueda de pasajes relevantes en grandes índices de texto
Optimización de la búsqueda documental con embeddings especializados
Aplicación en sistemas de consulta avanzada
Integración con pipelines de procesamiento de lenguaje natural