microsoft/xclip-base-patch16-ucf-8-shot

microsoft

Clasificación de video

El modelo X-CLIP (de tamaño base, resolución de parches de 16) entrenado de manera few-shot (K=8) en UCF101. Fue introducido en el artículo 'Expanding Language-Image Pretrained Models for General Video Recognition' por Ni et al. y lanzado por primera vez en este repositorio. Este modelo fue entrenado usando 32 cuadros por video, a una resolución de 224x224. Nota: El equipo que lanzó X-CLIP no escribió una hoja de modelo para este modelo, por lo que esta hoja de modelo ha sido escrita por el equipo de Hugging Face.

Como usar

Para ejemplos de código, nos remitimos a la documentación.
from transformers import AutoModel, AutoProcessor

model = AutoModel.from_pretrained('microsoft/xclip-base-patch16-ucf-8-shot')
processor = AutoProcessor.from_pretrained('microsoft/xclip-base-patch16-ucf-8-shot')

Funcionalidades

Clasificación de video en cero disparos, pocos disparos o completamente supervisado.
Recuperación de video-texto.
Entrenamiento contrastivo en pares (video, texto).

Casos de uso

Determinar qué tan bien el texto se ajusta a un video dado.
Clasificación de video en diferentes configuraciones de disparo.
Recuperación de contenido basado en texto para videos.