TimeSformer (variante de alta resolución, afinada en Something Something v2)

facebook
Clasificación de video

Modelo TimeSformer pre-entrenado en Something Something v2. Fue presentado en el artículo TimeSformer: ¿Es la Atención Espacio-Temporal Todo lo que Necesitas para la Comprensión de Videos? por Tong et al. y liberado por primera vez en este repositorio.

Como usar

from transformers import AutoImageProcessor, TimesformerForVideoClassification
import numpy as np
import torch

video = list(np.random.randn(16, 3, 448, 448))

processor = AutoImageProcessor.from_pretrained("facebook/timesformer-hr-finetuned-ssv2")
model = TimesformerForVideoClassification.from_pretrained("facebook/timesformer-hr-finetuned-ssv2")

inputs = feature_extractor(images=video, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs)
    logits = outputs.logits

predicted_class_idx = logits.argmax(-1).item()
print("Clase predicha:", model.config.id2label[predicted_class_idx])

Para más ejemplos de código, consulte la documentación.

Funcionalidades

Clasificación de videos
Transformadores
PyTorch
Procesamiento de visión
Marcador de arXiv: 2102.05095
Licencia: cc-by-nc-4.0

Casos de uso

Clasificación de videos en una de las 174 posibles etiquetas de Something Something v2