google/vivit-b-16x2

google

Clasificación de video

ViViT es una extensión del Vision Transformer (ViT) para video. ViViT model as introduced in the paper ViViT: A Video Vision Transformer by Arnab et al. and first released in this repository. Este modelo está diseñado principalmente para ser afinado en una tarea posterior, como la clasificación de videos.