VideoMAE (modelo base, pre-entrenado solamente)

rapadilla
Clasificación de video

El modelo VideoMAE ha sido pre-entrenado en Kinetics-400 durante 800 épocas de manera auto-supervisada. Fue introducido en el artículo 'VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training' por Tong et al. y fue lanzado por primera vez en este repositorio. VideoMAE es una extensión de los Autoencoders Enmascarados (MAE) a video. La arquitectura del modelo es muy similar a la de un Transformer de Visión (ViT) estándar, con un decodificador en la parte superior para predecir valores de píxeles para parches enmascarados. Los videos se presentan al modelo como una secuencia de parches de tamaño fijo (resolución 16x16), que se incrustan linealmente.

Como usar

Aquí se muestra cómo usar este modelo para predecir valores de píxeles para parches enmascarados aleatoriamente:

from transformers import VideoMAEImageProcessor, VideoMAEForPreTraining
import numpy as np
import torch

num_frames = 16
video = list(np.random.randn(16, 3, 224, 224))

processor = VideoMAEImageProcessor.from_pretrained("MCG-NJU/videomae-base-short")
model = VideoMAEForPreTraining.from_pretrained("MCG-NJU/videomae-base-short")

pixel_values = processor(video, return_tensors="pt").pixel_values

num_patches_per_frame = (model.config.image_size // model.config.patch_size) ** 2
seq_length = (num_frames // model.config.tubelet_size) * num_patches_per_frame
bool_masked_pos = torch.randint(0, 2, (1, seq_length)).bool()

outputs = model(pixel_values, bool_masked_pos=bool_masked_pos)
loss = outputs.loss

Para más ejemplos de código, consulte la documentación.

Funcionalidades

Clasificación de Video
Transformers
PyTorch
Preentrenamiento VideoMAE
Visión

Casos de uso

Predecir valores de píxeles para parches enmascarados de un video
Clasificación de video
Extracción de características útiles para tareas posteriores en videos etiquetados