VideoMAE (modelo base, pre-entrenado solamente)
El modelo VideoMAE ha sido pre-entrenado en Kinetics-400 durante 800 épocas de manera auto-supervisada. Fue introducido en el artículo 'VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training' por Tong et al. y fue lanzado por primera vez en este repositorio. VideoMAE es una extensión de los Autoencoders Enmascarados (MAE) a video. La arquitectura del modelo es muy similar a la de un Transformer de Visión (ViT) estándar, con un decodificador en la parte superior para predecir valores de píxeles para parches enmascarados. Los videos se presentan al modelo como una secuencia de parches de tamaño fijo (resolución 16x16), que se incrustan linealmente.
Como usar
Aquí se muestra cómo usar este modelo para predecir valores de píxeles para parches enmascarados aleatoriamente:
from transformers import VideoMAEImageProcessor, VideoMAEForPreTraining
import numpy as np
import torch
num_frames = 16
video = list(np.random.randn(16, 3, 224, 224))
processor = VideoMAEImageProcessor.from_pretrained("MCG-NJU/videomae-base-short")
model = VideoMAEForPreTraining.from_pretrained("MCG-NJU/videomae-base-short")
pixel_values = processor(video, return_tensors="pt").pixel_values
num_patches_per_frame = (model.config.image_size // model.config.patch_size) ** 2
seq_length = (num_frames // model.config.tubelet_size) * num_patches_per_frame
bool_masked_pos = torch.randint(0, 2, (1, seq_length)).bool()
outputs = model(pixel_values, bool_masked_pos=bool_masked_pos)
loss = outputs.loss
Para más ejemplos de código, consulte la documentación.
Funcionalidades
- Clasificación de Video
- Transformers
- PyTorch
- Preentrenamiento VideoMAE
- Visión
Casos de uso
- Predecir valores de píxeles para parches enmascarados de un video
- Clasificación de video
- Extracción de características útiles para tareas posteriores en videos etiquetados