vivit-b-16x2-finetuned-cctv-surveillance
WasuratS
Clasificación de video
Este modelo es una versión ajustada de google/vivit-b-16x2 en un conjunto de datos desconocido. Logra los siguientes resultados en el conjunto de evaluación: Pérdida: 0.1478, Precisión: 0.9460, Puntuación F1: 0.9430, Recall: 0.9460, Precisión: 0.9454.
Como usar
Procedimiento de entrenamiento
Los siguientes hiperparámetros se usaron durante el entrenamiento:
- learning_rate: 5e-06
- train_batch_size: 2
- eval_batch_size: 2
- seed: 42
- optimizer: Adam con betas=(0.9,0.999) y epsilon=1e-08
- lr_scheduler_type: linear
- lr_scheduler_warmup_ratio: 0.1
- training_steps: 4176
Versiones del framework
- Transformers 4.39.3
- Pytorch 2.1.2
- Datasets 2.18.0
- Tokenizers 0.15.2
Funcionalidades
- Clasificación de video
- Transformers
- TensorBoard
- Safetensors
Casos de uso
- Vigilancia CCTV
- Clasificación de video