TimeSformer (variante de alta resolución, ajustada con Kinetics-400)
fcakyon
Clasificación de video
El modelo TimeSformer, pre-entrenado en Kinetics-400, fue introducido en el artículo TimeSformer: ¿Es la atención espacio-temporal todo lo que necesitas para la comprensión de video? por Tong y otros, y fue liberado por primera vez en este repositorio.
Como usar
Aquí se explica cómo usar este modelo para clasificar un video:
from transformers import AutoImageProcessor, TimesformerForVideoClassification
import numpy as np
import torch
video = list(np.random.randn(16, 3, 448, 448))
processor = AutoImageProcessor.from_pretrained("fcakyon/timesformer-hr-finetuned-k400")
model = TimesformerForVideoClassification.from_pretrained("fcakyon/timesformer-hr-finetuned-k400")
inputs = processor(images=video, return_tensors="pt")
with torch.no_grad():
outputs = model(**inputs)
logits = outputs.logits
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])
Para más ejemplos de código, nos remitimos a la documentación.
Funcionalidades
- Clasificación de videos
- Transformadores
- PyTorch
- TimeSformer
- Visión por computadora
Casos de uso
- Clasificación de videos en una de las 400 etiquetas posibles de Kinetics-400