facebook/timesformer-base-finetuned-ssv2

facebook

Clasificación de video

El modelo TimeSformer (modelo de tamaño base, ajustado en Something Something v2) fue introducido en el artículo 'TimeSformer: Is Space-Time Attention All You Need for Video Understanding?' por Tong et al. y lanzado por primera vez en este repositorio. Este modelo ha sido ajustado utilizando el conjunto de datos Something Something v2 y puede ser utilizado para la clasificación de videos en una de las 174 etiquetas posibles de Something Something v2.

Como usar

Aquí se muestra cómo usar este modelo para clasificar un video:
from transformers import AutoImageProcessor, TimesformerForVideoClassification
import numpy as np
import torch

video = list(np.random.randn(8, 3, 224, 224))

processor = AutoImageProcessor.from_pretrained("facebook/timesformer-base-finetuned-ssv2")
model = TimesformerForVideoClassification.from_pretrained("facebook/timesformer-base-finetuned-ssv2")

inputs = processor(images=video, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs)
    logits = outputs.logits

predicted_class_idx = logits.argmax(-1).item()
print("Clase predecida:", model.config.id2label[predicted_class_idx])

Para más ejemplos de código, nos referimos a la documentación.

Funcionalidades

Clasificación de videos
Transformadores
PyTorch
Procesamiento de visión

Casos de uso

Clasificación de videos en una de las 174 etiquetas de Something Something v2