vivit-b-16x2-kinetics400-finetuned-crema-d
minhah
Clasificación de video
Este modelo es una versión ajustada de google/vivit-b-16x2-kinetics400 en un conjunto de datos desconocido. Logra los siguientes resultados en el conjunto de evaluación: Pérdida: 0.7914, Precisión: 0.7164.
Como usar
Cómo usar el modelo, más información necesaria. Los siguientes hiperparámetros se usaron durante el entrenamiento:
learning_rate: 5e-05
train_batch_size: 8
eval_batch_size: 8
seed: 42
optimizer: Adam con betas=(0.9,0.999) y epsilon=1e-08
lr_scheduler_type: linear
lr_scheduler_warmup_ratio: 0.1
training_steps: 2976
Los siguientes resultados se obtuvieron durante el entrenamiento:
Training Loss
Epoch
Step
Validation Loss
Accuracy
0.9737
0.25
745
1.0216
0.6148
0.9205
1.25
1490
0.9240
0.6510
0.456
2.25
2235
0.7564
0.7154
0.3316
3.25
2976
0.7168
0.7275
Funcionalidades
- Clasificación de video
- Transformers
- Safetensors
Casos de uso
- Clasificación de videos en diferentes categorías.
- Uso en análisis de video para tareas específicas como detección de acciones.