TimeSformer (variante de alta resolución, afinada en Something Something v2)
facebook
Clasificación de video
Modelo TimeSformer pre-entrenado en Something Something v2. Fue presentado en el artículo TimeSformer: ¿Es la Atención Espacio-Temporal Todo lo que Necesitas para la Comprensión de Videos? por Tong et al. y liberado por primera vez en este repositorio.
Como usar
from transformers import AutoImageProcessor, TimesformerForVideoClassification
import numpy as np
import torch
video = list(np.random.randn(16, 3, 448, 448))
processor = AutoImageProcessor.from_pretrained("facebook/timesformer-hr-finetuned-ssv2")
model = TimesformerForVideoClassification.from_pretrained("facebook/timesformer-hr-finetuned-ssv2")
inputs = feature_extractor(images=video, return_tensors="pt")
with torch.no_grad():
outputs = model(**inputs)
logits = outputs.logits
predicted_class_idx = logits.argmax(-1).item()
print("Clase predicha:", model.config.id2label[predicted_class_idx])
Para más ejemplos de código, consulte la documentación.
Funcionalidades
- Clasificación de videos
- Transformadores
- PyTorch
- Procesamiento de visión
- Marcador de arXiv: 2102.05095
- Licencia: cc-by-nc-4.0
Casos de uso
- Clasificación de videos en una de las 174 posibles etiquetas de Something Something v2