google/vivit-b-16x2-kinetics400

google

Clasificación de video

ViViT es una extensión del Vision Transformer (ViT) para video, como se introduce en el artículo ViViT: A Video Vision Transformer de Arnab et al. y se publicó por primera vez en este repositorio. El equipo que lanzó ViViT no escribió una tarjeta de modelo para este modelo, así que esta tarjeta de modelo ha sido escrita por el equipo de Hugging Face.

Como usar

Para ejemplos de código, nos referimos a la documentación.
title={ViViT: A Video Vision Transformer}, 
author={Anurag Arnab and Mostafa Dehghani and Georg Heigold and Chen Sun and Mario Lučić and Cordelia Schmid},
year={2021},
eprint={2103.15691},
archivePrefix={arXiv},
primaryClass={cs.CV}
}```

Funcionalidades

Clasificación de video
Transformers
PyTorch
Visión

Casos de uso

El modelo está destinado principalmente a ser afinado para una tarea descendente, como la clasificación de video.