google/vivit-b-16x2-kinetics400
google
Clasificación de video
ViViT es una extensión del Vision Transformer (ViT) para video, como se introduce en el artículo ViViT: A Video Vision Transformer de Arnab et al. y se publicó por primera vez en este repositorio. El equipo que lanzó ViViT no escribió una tarjeta de modelo para este modelo, así que esta tarjeta de modelo ha sido escrita por el equipo de Hugging Face.
Como usar
Para ejemplos de código, nos referimos a la documentación.
title={ViViT: A Video Vision Transformer},
author={Anurag Arnab and Mostafa Dehghani and Georg Heigold and Chen Sun and Mario Lučić and Cordelia Schmid},
year={2021},
eprint={2103.15691},
archivePrefix={arXiv},
primaryClass={cs.CV}
}```
Funcionalidades
- Clasificación de video
- Transformers
- PyTorch
- Visión
Casos de uso
- El modelo está destinado principalmente a ser afinado para una tarea descendente, como la clasificación de video.