vivit-b-16x2-kinetics400-finetuned-original

mlnha

Clasificación de video

Este modelo es una versión ajustada de google/vivit-b-16x2-kinetics400 en un dataset desconocido. Logra los siguientes resultados en el conjunto de evaluación: Pérdida: 0.9100, Precisión: 0.82.

Como usar

Este modelo puede ser desplegado para la clasificación de videos utilizando Transformers. A continuación se indican los hiperparámetros usados durante el entrenamiento:
- learning_rate: 5e-05
- train_batch_size: 2
- eval_batch_size: 2
- seed: 42
- optimizador: Adam con betas=(0.9,0.999) y epsilon=1e-08
- tipo de scheduler de lr: línea
- lr_scheduler_warmup_ratio: 0.1
- pasos de entrenamiento: 1500

Resultados de entrenamiento:
| Training Loss | Epoch | Step | Validation Loss | Precision |
|---------------|-------|------|-----------------|-----------|
| 1.5879 | 0.1 | 150 | 1.4047 | 0.54 |
| 0.5048 | 1.1 | 300 | 0.7097 | 0.78 |
| 0.1226 | 2.1 | 450 | 0.7969 | 0.8 |
| 0.004 | 3.1 | 600 | 0.9451 | 0.77 |
| 0.0027 | 4.1 | 750 | 0.7712 | 0.8 |
| 0.0011 | 5.1 | 900 | 0.9800 | 0.8 |
| 0.0155 | 6.1 | 1050 | 0.9160 | 0.8 |
| 0.001 | 7.1 | 1200 | 0.9038 | 0.82 |
| 0.0008 | 8.1 | 1350 | 0.8959 | 0.82 |
| 0.2194 | 9.1 | 1500 | 0.9100 | 0.82 |
Versiones de Framework:
- Transformers 4.40.2
- Pytorch 2.2.1+cu121
- Datasets 2.19.1
- Tokenizers 0.19.1

Funcionalidades

Clasificación de video
Uso de Transformers
compatible con TensorBoard
uso de Safetensors
Generado a partir de Trainer
EndPoints de Inferencia disponibles
Tamaño del modelo: 88.7M parámetros
Tensor type: F32

Casos de uso

Clasificación de videos
Reconocimiento de acciones en videos
Sistemas de videovigilancia
Análisis de contenido multimedia
Etiqueta de video para contenido digital