vivit-b-16x2-finetuned-cctv-surveillance

WasuratS
Clasificación de video

Este modelo es una versión ajustada de google/vivit-b-16x2 en un conjunto de datos desconocido. Logra los siguientes resultados en el conjunto de evaluación: Pérdida: 0.1478, Precisión: 0.9460, Puntuación F1: 0.9430, Recall: 0.9460, Precisión: 0.9454.

Como usar

Procedimiento de entrenamiento

Los siguientes hiperparámetros se usaron durante el entrenamiento:

  • learning_rate: 5e-06
  • train_batch_size: 2
  • eval_batch_size: 2
  • seed: 42
  • optimizer: Adam con betas=(0.9,0.999) y epsilon=1e-08
  • lr_scheduler_type: linear
  • lr_scheduler_warmup_ratio: 0.1
  • training_steps: 4176

Versiones del framework

  • Transformers 4.39.3
  • Pytorch 2.1.2
  • Datasets 2.18.0
  • Tokenizers 0.15.2

Funcionalidades

Clasificación de video
Transformers
TensorBoard
Safetensors

Casos de uso

Vigilancia CCTV
Clasificación de video