vivit-b-16x2-kinetics400-finetuned-vivit-frequency
yangboyuan
Clasificación de video
Este modelo es una versión ajustada de google/vivit-b-16x2-kinetics400 en un conjunto de datos desconocido. Logra los siguientes resultados en el conjunto de evaluación: Pérdida: 1.2570, Precisión: 0.7455.
Como usar
Para usar este modelo, puede descargarlo desde Hugging Face y configurarlo en su entorno de Python usando las siguientes versiones de frameworks:
Transformers 4.42.4
Pytorch 2.0.1+cu117
Datasets 2.20.0
Tokenizers 0.19.1
Los hiperparámetros utilizados durante el entrenamiento son:
learning_rate: 5e-05
train_batch_size: 1
eval_batch_size: 1
seed: 42
optimizer: Adam con betas=(0.9,0.999) y epsilon=1e-08
lr_scheduler_type: linear
lr_scheduler_warmup_ratio: 0.1
training_steps: 5920
Funcionalidades
- Clasificación de video
- Transformers
- Compatibilidad con TensorBoard
- Compatibilidad con Safetensors
- Generado a partir de Trainer
Casos de uso
- Clasificación de video en tiempo real
- Análisis de acciones en videos
- Aplicaciones de vigilancia y monitorización