vivit-b-16x2-kinetics400-finetuned-crema-d

minhah
Clasificación de video

Este modelo es una versión ajustada de google/vivit-b-16x2-kinetics400 en un conjunto de datos desconocido. Logra los siguientes resultados en el conjunto de evaluación: Pérdida: 0.7914, Precisión: 0.7164.

Como usar

Cómo usar el modelo, más información necesaria. Los siguientes hiperparámetros se usaron durante el entrenamiento:

learning_rate: 5e-05
train_batch_size: 8
eval_batch_size: 8
seed: 42
optimizer: Adam con betas=(0.9,0.999) y epsilon=1e-08
lr_scheduler_type: linear
lr_scheduler_warmup_ratio: 0.1
training_steps: 2976

Los siguientes resultados se obtuvieron durante el entrenamiento:

Training Loss
Epoch
Step
Validation Loss
Accuracy

0.9737
0.25
745
1.0216
0.6148

0.9205
1.25
1490
0.9240
0.6510

0.456
2.25
2235
0.7564
0.7154

0.3316
3.25
2976
0.7168
0.7275

Funcionalidades

Clasificación de video
Transformers
Safetensors

Casos de uso

Clasificación de videos en diferentes categorías.
Uso en análisis de video para tareas específicas como detección de acciones.