PVTv2
El Pyramid Vision Transformer v2 (PVTv2) es una potente y ligera columna vertebral de transformadores jerárquicos para tareas de visión. PVTv2 infunde operaciones de convolución en sus capas de transformador para infundir propiedades de las CNN que les permiten aprender datos de imagen de manera eficiente. Esta arquitectura de mezcla de transformador no requiere incrustaciones posicionales adicionales y produce mapas de características de múltiples escalas, los cuales son conocidos por ser beneficiosos para tareas de predicción densas y de grano fino.
Como usar
Este modelo aún no tiene suficiente actividad para ser desplegado en la API de Inferencia (sin servidor). Aumente su visibilidad social y vuelva a verificar más tarde, o despliegue en Endpoints de Inferencia (dedicados) en su lugar.
Funcionalidades
- Implementación de PVTv2 en PyTorch
- Infusión de operaciones de convolución en capas de transformador
- Generación de mapas de características de múltiples escalas
- No requiere incrustaciones posicionales adicionales
Casos de uso
- Segmentación semántica con Segformer
- Detección de profundidad monocular con GLPN
- Detección de objetos 2D con Deformable DETR
- Segmentación panóptica con Panoptic Segformer