vivit-b-16x2-finetuned-cctv-surveillance

WasuratS

Clasificación de video

Este modelo es una versión ajustada de google/vivit-b-16x2 en un conjunto de datos desconocido. Logra los siguientes resultados en el conjunto de evaluación: Pérdida: 0.1478, Precisión: 0.9460, Puntuación F1: 0.9430, Recall: 0.9460, Precisión: 0.9454.

Como usar

Procedimiento de entrenamiento
Los siguientes hiperparámetros se usaron durante el entrenamiento:

learning_rate: 5e-06
train_batch_size: 2
eval_batch_size: 2
seed: 42
optimizer: Adam con betas=(0.9,0.999) y epsilon=1e-08
lr_scheduler_type: linear
lr_scheduler_warmup_ratio: 0.1
training_steps: 4176

Versiones del framework

Transformers 4.39.3
Pytorch 2.1.2
Datasets 2.18.0
Tokenizers 0.15.2

Funcionalidades

Clasificación de video
Transformers
TensorBoard
Safetensors

Casos de uso

Vigilancia CCTV
Clasificación de video