TimeSformer (variante de alta resolución, afinado en Kinetics-400)

facebook

Clasificación de video

El modelo TimeSformer preentrenado en Kinetics-400. Fue introducido en el artículo 'TimeSformer: Is Space-Time Attention All You Need for Video Understanding?' por Tong et al. y lanzado por primera vez en este repositorio. Aviso: El equipo que lanzó TimeSformer no escribió una tarjeta de modelo para este modelo, así que esta tarjeta de modelo ha sido escrita por fcakyon.

Como usar

Aquí te explicamos cómo usar este modelo para clasificar un video:
from transformers import AutoImageProcessor, TimesformerForVideoClassification
import numpy as np
import torch

video = list(np.random.randn(16, 3, 448, 448))

processor = AutoImageProcessor.from_pretrained('facebook/timesformer-hr-finetuned-k400')
model = TimesformerForVideoClassification.from_pretrained('facebook/timesformer-hr-finetuned-k400')

inputs = processor(images=video, return_tensors='pt')

with torch.no_grad():
    outputs = model(**inputs)
    logits = outputs.logits

predicted_class_idx = logits.argmax(-1).item()
print('Predicted class:', model.config.id2label[predicted_class_idx])

Para más ejemplos de código, nos referimos a la documentación.

Funcionalidades

Clasificación de video
Transformers
PyTorch
vision

Casos de uso

Clasificación de video en una de las 400 posibles etiquetas de Kinetics-400.