VideoMAE (modelo de gran tamaño, afinado en Kinetics-400)
MCG-NJU
Clasificación de video
El modelo VideoMAE pre-entrenado durante 1600 épocas de manera auto-supervisada y afinado de manera supervisada en Kinetics-400. Fue introducido en el artículo 'VideoMAE: Los Autoencoders Enmascarados son Aprendices Eficientes en Datos para Pre-Entrenamiento Auto-Supervisado de Video' por Tong et al. y se lanzó por primera vez en este repositorio. VideoMAE es una extensión de los Autoencoders Enmascarados (MAE) para video. La arquitectura del modelo es muy similar a la de un Transformador de Visión estándar (ViT), con un decodificador en la parte superior para predecir valores de píxeles para parches enmascarados.
Como usar
Aquí se muestra cómo usar este modelo para clasificar un video:
from transformers import VideoMAEImageProcessor, VideoMAEForVideoClassification
import numpy as np
import torch
video = list(np.random.randn(16, 3, 224, 224))
processor = VideoMAEImageProcessor.from_pretrained("MCG-NJU/videomae-huge-finetuned-kinetics")
model = VideoMAEForVideoClassification.from_pretrained("MCG-NJU/videomae-huge-finetuned-kinetics")
inputs = processor(video, return_tensors="pt")
with torch.no_grad():
outputs = model(**inputs)
logits = outputs.logits
predicted_class_idx = logits.argmax(-1).item()
print("Clase predicha:", model.config.id2label[predicted_class_idx])
Funcionalidades
- Clasificación de video en uno de los 400 posibles etiquetas de Kinetics-400
- Representación interna de videos útil para tareas posteriores
- Entrenamiento auto-supervisado y afinado supervisado
Casos de uso
- Clasificación de videos
- Extracción de características útiles para tareas posteriores