vivit-b-16x2-kinetics400-finetuned-vivit-frequency

yangboyuan
Clasificación de video

Este modelo es una versión ajustada de google/vivit-b-16x2-kinetics400 en un conjunto de datos desconocido. Logra los siguientes resultados en el conjunto de evaluación: Pérdida: 1.2570, Precisión: 0.7455.

Como usar

Para usar este modelo, puede descargarlo desde Hugging Face y configurarlo en su entorno de Python usando las siguientes versiones de frameworks:

Transformers 4.42.4
Pytorch 2.0.1+cu117
Datasets 2.20.0
Tokenizers 0.19.1

Los hiperparámetros utilizados durante el entrenamiento son:

learning_rate: 5e-05
train_batch_size: 1
eval_batch_size: 1
seed: 42
optimizer: Adam con betas=(0.9,0.999) y epsilon=1e-08
lr_scheduler_type: linear
lr_scheduler_warmup_ratio: 0.1
training_steps: 5920

Funcionalidades

Clasificación de video
Transformers
Compatibilidad con TensorBoard
Compatibilidad con Safetensors
Generado a partir de Trainer

Casos de uso

Clasificación de video en tiempo real
Análisis de acciones en videos
Aplicaciones de vigilancia y monitorización