VideoMAE (modelo de gran tamaño, afinado en Kinetics-400)

MCG-NJU

Clasificación de video

El modelo VideoMAE pre-entrenado durante 1600 épocas de manera auto-supervisada y afinado de manera supervisada en Kinetics-400. Fue introducido en el artículo 'VideoMAE: Los Autoencoders Enmascarados son Aprendices Eficientes en Datos para Pre-Entrenamiento Auto-Supervisado de Video' por Tong et al. y se lanzó por primera vez en este repositorio. VideoMAE es una extensión de los Autoencoders Enmascarados (MAE) para video. La arquitectura del modelo es muy similar a la de un Transformador de Visión estándar (ViT), con un decodificador en la parte superior para predecir valores de píxeles para parches enmascarados.

Como usar

Aquí se muestra cómo usar este modelo para clasificar un video:
from transformers import VideoMAEImageProcessor, VideoMAEForVideoClassification
import numpy as np
import torch

video = list(np.random.randn(16, 3, 224, 224))

processor = VideoMAEImageProcessor.from_pretrained("MCG-NJU/videomae-huge-finetuned-kinetics")
model = VideoMAEForVideoClassification.from_pretrained("MCG-NJU/videomae-huge-finetuned-kinetics")

inputs = processor(video, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs)
    logits = outputs.logits

predicted_class_idx = logits.argmax(-1).item()
print("Clase predicha:", model.config.id2label[predicted_class_idx])

Funcionalidades

Clasificación de video en uno de los 400 posibles etiquetas de Kinetics-400
Representación interna de videos útil para tareas posteriores
Entrenamiento auto-supervisado y afinado supervisado

Casos de uso

Clasificación de videos
Extracción de características útiles para tareas posteriores