microsoft/xclip-base-patch16-hmdb-4-shot

microsoft

Clasificación de video

X-CLIP es una extensión mínima de CLIP para la comprensión general de video-lenguaje. El modelo se entrena de manera contrastiva en pares (video, texto). Esto permite que el modelo se use para tareas como clasificación de video de cero disparos, pocos disparos o completamente supervisada, así como recuperación de video-texto. Este modelo ha sido entrenado en el conjunto de datos HMDB-51 con una resolución de parche de 16 y ha sido liberado por el equipo de Hugging Face.

Como usar

Para ejemplos de código, nos referimos a la documentación. Durante la validación, se redimensiona el borde más corto de cada fotograma, después de lo cual se realiza un recorte central a una resolución de tamaño fijo (como 224x224). A continuación, los fotogramas se normalizan a través de los canales RGB con la media y desviación estándar de ImageNet.
# Ejemplo de código
from transformers import AutoModel, AutoProcessor
model = AutoModel.from_pretrained('microsoft/xclip-base-patch16-hmdb-4-shot')
processor = AutoProcessor.from_pretrained('microsoft/xclip-base-patch16-hmdb-4-shot')

Funcionalidades

Clasificación de video
Pocas tomas (K=4)
Entrenado con 32 fotogramas por video
Resolución de 224x224 por fotograma
Comprensión de video-lenguaje

Casos de uso

Clasificación de video supervisada completamente
Clasificación de video de cero disparos
Clasificación de video de pocos disparos
Recuperación de video-texto