TimeSformer (variante de alta resolución, afinado en Something Something v2)
fcakyon
Clasificación de video
TimeSformer es un modelo de clasificación de video preentrenado en Something Something v2. Fue introducido en el artículo 'TimeSformer: ¿Es la atención espacio-temporal todo lo que necesitas para entender videos?' por Tong et al. y se lanzó por primera vez en este repositorio. El modelo se puede utilizar para la clasificación de videos en una de las 174 etiquetas posibles de Something Something v2.
Como usar
Aquí tienes cómo usar este modelo para clasificar un video:
from transformers import AutoImageProcessor, TimesformerForVideoClassification
import numpy as np
import torch
video = list(np.random.randn(16, 3, 448, 448))
processor = AutoImageProcessor.from_pretrained("fcakyon/timesformer-hr-finetuned-ssv2")
model = TimesformerForVideoClassification.from_pretrained("fcakyon/timesformer-hr-finetuned-ssv2")
inputs = feature_extractor(images=video, return_tensors="pt")
with torch.no_grad():
outputs = model(**inputs)
logits = outputs.logits
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])
Para más ejemplos de código, consulta la documentación.
Funcionalidades
- Clasificación de video
- Transformers
- Compatibilidad con PyTorch
- Modelo basado en TimeSformer
- Afinado en Something Something v2
Casos de uso
- Clasificación de video en una de las 174 etiquetas posibles de Something Something v2