VideoMAE (modelo pequeño, ajustado en SSV2)

MCG-NJU

Clasificación de video

VideoMAE es una extensión de los Codificadores Automáticos Enmascarados (MAE) para video. La arquitectura del modelo es muy similar a la de un Transformador de Visión estándar (ViT), con un decodificador en la parte superior para predecir valores de píxeles para parches enmascarados. Los videos se presentan al modelo como una secuencia de parches de tamaño fijo (resolución 16x16), que se incrustan linealmente. También se añade un token [CLS] al comienzo de una secuencia para usarlo en tareas de clasificación. Además, se añaden incrustaciones posicionales sinusoides/cosenoides fijas antes de alimentar la secuencia a las capas del codificador del Transformador. Al preentrenar el modelo, aprende una representación interna de los videos que luego se puede usar para extraer características útiles para tareas downstream: si tienes un conjunto de datos de videos etiquetados, por ejemplo, puedes entrenar un clasificador estándar colocando una capa lineal sobre el codificador preentrenado. Normalmente se coloca una capa lineal sobre el token [CLS], ya que el último estado oculto de este token se puede ver como una representación de un video completo.

Como usar

A continuación se explica cómo usar este modelo para clasificar un video:
from transformers import VideoMAEFeatureExtractor, VideoMAEForVideoClassification
import numpy as np
import torch

video = list(np.random.randn(16, 3, 224, 224))

feature_extractor = VideoMAEFeatureExtractor.from_pretrained("MCG-NJU/videomae-small-finetuned-ssv2")
model = VideoMAEForVideoClassification.from_pretrained("MCG-NJU/videomae-small-finetuned-ssv2")

inputs = feature_extractor(video, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs)
    logits = outputs.logits

predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

Para más ejemplos de código, consulte la documentación.

Funcionalidades

Clasificación de video en uno de los 174 posibles etiquetas de Something-Something V2
Extensión de Codificadores Automáticos Enmascarados (MAE) para video
Arquitectura similar a un Transformador de Visión estándar (ViT)
Incrustaciones lineales de parches de video de tamaño fijo (16x16)
Incrustaciones posicionales sinusoides/cosenoides fijas
Capacidad de aprender una representación interna de videos

Casos de uso

Clasificación de videos para determinar la etiqueta correcta entre las 174 posibles del conjunto de datos Something-Something V2