microsoft/xclip-base-patch16-ucf-16-shot

microsoft

Clasificación de video

X-CLIP es una extensión mínima de CLIP para la comprensión general de video-lenguaje. El modelo está entrenado de manera contrastiva en pares de (video, texto). Esto permite que el modelo se utilice para tareas como clasificación de videos en zero-shot, few-shot o completamente supervisada, así como recuperación de video-texto.