google/vivit-b-16x2

google
Clasificación de video

ViViT es una extensión del Vision Transformer (ViT) para video. ViViT model as introduced in the paper ViViT: A Video Vision Transformer by Arnab et al. and first released in this repository. Este modelo está diseñado principalmente para ser afinado en una tarea posterior, como la clasificación de videos.

Como usar

Para ejemplos de código, nos referimos a la documentación.

Funcionalidades

Clasificación de video
Transformadores
PyTorch
ViViT
Visión por computadora

Casos de uso

Clasificación de videos