MCG-NJU/videomae-base-short-finetuned-ssv2
MCG-NJU
Clasificación de video
VideoMAE es una extensión de los codificadores automáticos enmascarados (MAE) a video. La arquitectura del modelo es muy similar a la de un transformador de visión estándar (ViT), con un decodificador en la parte superior para predecir valores de píxeles para parches enmascarados. El modelo VideoMAE se entrenó previamente durante 800 épocas de manera auto-supervisada y se ajustó de manera supervisada en Something-Something-v2. Fue introducido en el artículo VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training de Tong et al. y se lanzó por primera vez en este repositorio.
Como usar
Aquí se muestra cómo usar este modelo para clasificar un video:
from transformers import VideoMAEFeatureExtractor, VideoMAEForVideoClassification
import numpy as np
import torch
video = list(np.random.randn(16, 3, 224, 224))
feature_extractor = VideoMAEFeatureExtractor.from_pretrained("MCG-NJU/videomae-base-short-finetuned-ssv2")
model = VideoMAEForVideoClassification.from_pretrained("MCG-NJU/videomae-base-short-finetuned-ssv2")
inputs = feature_extractor(video, return_tensors="pt")
with torch.no_grad():
outputs = model(**inputs)
logits = outputs.logits
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])
Para más ejemplos de código, consulte la documentación.
Funcionalidades
- Clasificación de videos
- Transformadores
- PyTorch
- VideoMAE
- Visión
- Puntos finales de inferencia
Casos de uso
- Clasificación de videos en una de las 400 posibles etiquetas de Kinetics-400