MCG-NJU/videomae-base-short-finetuned-ssv2

MCG-NJU
Clasificación de video

VideoMAE es una extensión de los codificadores automáticos enmascarados (MAE) a video. La arquitectura del modelo es muy similar a la de un transformador de visión estándar (ViT), con un decodificador en la parte superior para predecir valores de píxeles para parches enmascarados. El modelo VideoMAE se entrenó previamente durante 800 épocas de manera auto-supervisada y se ajustó de manera supervisada en Something-Something-v2. Fue introducido en el artículo VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training de Tong et al. y se lanzó por primera vez en este repositorio.

Como usar

Aquí se muestra cómo usar este modelo para clasificar un video:

from transformers import VideoMAEFeatureExtractor, VideoMAEForVideoClassification
import numpy as np
import torch

video = list(np.random.randn(16, 3, 224, 224))

feature_extractor = VideoMAEFeatureExtractor.from_pretrained("MCG-NJU/videomae-base-short-finetuned-ssv2")
model = VideoMAEForVideoClassification.from_pretrained("MCG-NJU/videomae-base-short-finetuned-ssv2")

inputs = feature_extractor(video, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs)
    logits = outputs.logits

predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

Para más ejemplos de código, consulte la documentación.

Funcionalidades

Clasificación de videos
Transformadores
PyTorch
VideoMAE
Visión
Puntos finales de inferencia

Casos de uso

Clasificación de videos en una de las 400 posibles etiquetas de Kinetics-400