PVTv2

OpenGVLab

Clasificación de imagen

El Pyramid Vision Transformer v2 (PVTv2) es una potente y ligera columna vertebral de transformadores jerárquicos para tareas de visión. PVTv2 infunde operaciones de convolución en sus capas de transformador para infundir propiedades de las CNN que les permiten aprender datos de imagen de manera eficiente. Esta arquitectura de mezcla de transformador no requiere incrustaciones posicionales adicionales y produce mapas de características de múltiples escalas, los cuales son conocidos por ser beneficiosos para tareas de predicción densas y de grano fino.

Como usar

Este modelo aún no tiene suficiente actividad para ser desplegado en la API de Inferencia (sin servidor). Aumente su visibilidad social y vuelva a verificar más tarde, o despliegue en Endpoints de Inferencia (dedicados) en su lugar.

Funcionalidades

Implementación de PVTv2 en PyTorch
Infusión de operaciones de convolución en capas de transformador
Generación de mapas de características de múltiples escalas
No requiere incrustaciones posicionales adicionales

Casos de uso

Segmentación semántica con Segformer
Detección de profundidad monocular con GLPN
Detección de objetos 2D con Deformable DETR
Segmentación panóptica con Panoptic Segformer