TimeSformer (variante de alta resolución, afinado en Kinetics-400)
facebook
Clasificación de video
El modelo TimeSformer preentrenado en Kinetics-400. Fue introducido en el artículo 'TimeSformer: Is Space-Time Attention All You Need for Video Understanding?' por Tong et al. y lanzado por primera vez en este repositorio. Aviso: El equipo que lanzó TimeSformer no escribió una tarjeta de modelo para este modelo, así que esta tarjeta de modelo ha sido escrita por fcakyon.
Como usar
Aquí te explicamos cómo usar este modelo para clasificar un video:
from transformers import AutoImageProcessor, TimesformerForVideoClassification
import numpy as np
import torch
video = list(np.random.randn(16, 3, 448, 448))
processor = AutoImageProcessor.from_pretrained('facebook/timesformer-hr-finetuned-k400')
model = TimesformerForVideoClassification.from_pretrained('facebook/timesformer-hr-finetuned-k400')
inputs = processor(images=video, return_tensors='pt')
with torch.no_grad():
outputs = model(**inputs)
logits = outputs.logits
predicted_class_idx = logits.argmax(-1).item()
print('Predicted class:', model.config.id2label[predicted_class_idx])
Para más ejemplos de código, nos referimos a la documentación.
Funcionalidades
- Clasificación de video
- Transformers
- PyTorch
- vision
Casos de uso
- Clasificación de video en una de las 400 posibles etiquetas de Kinetics-400.