facebook/timesformer-base-finetuned-k600

facebook

Clasificación de video

El modelo TimeSformer preentrenado en Kinetics-600. Fue introducido en el artículo TimeSformer: ¿Es la atención espaciotemporal todo lo que necesitas para comprender videos? por Tong et al. y se lanzó por primera vez en este repositorio.

Como usar

Aquí se muestra cómo usar este modelo para clasificar un video:
from transformers import AutoImageProcessor, TimesformerForVideoClassification
import numpy as np
import torch

video = list(np.random.randn(8, 3, 224, 224))

processor = AutoImageProcessor.from_pretrained('facebook/timesformer-base-finetuned-k600')
model = TimesformerForVideoClassification.from_pretrained('facebook/timesformer-base-finetuned-k600')

inputs = processor(images=video, return_tensors='pt')

with torch.no_grad():
    outputs = model(**inputs)
    logits = outputs.logits

predicted_class_idx = logits.argmax(-1).item()
print('Clase predicha:', model.config.id2label[predicted_class_idx])

Para más ejemplos de código, nos referimos a la documentación.

Funcionalidades

Clasificación de videos
Transformers
PyTorch
Timesformer
Visión

Casos de uso

Clasificación de videos en una de las 600 etiquetas posibles de Kinetics-600.