google/vivit-b-16x2
google
Clasificación de video
ViViT es una extensión del Vision Transformer (ViT) para video. ViViT model as introduced in the paper ViViT: A Video Vision Transformer by Arnab et al. and first released in this repository. Este modelo está diseñado principalmente para ser afinado en una tarea posterior, como la clasificación de videos.
Como usar
Para ejemplos de código, nos referimos a la documentación.
Funcionalidades
- Clasificación de video
- Transformadores
- PyTorch
- ViViT
- Visión por computadora
Casos de uso
- Clasificación de videos