microsoft/xclip-base-patch16-ucf-4-shot
microsoft
Clasificación de video
El modelo X-CLIP (tamaño base, resolución de parche de 16) entrenado en modo few-shot (K=4) en UCF101. Fue introducido en el artículo 'Expanding Language-Image Pretrained Models for General Video Recognition' por Ni et al. y publicado por primera vez en este repositorio. Este modelo fue entrenado usando 32 cuadros por video, a una resolución de 224x224. X-CLIP es una extensión mínima de CLIP para la comprensión general de video-lenguaje. El modelo se entrena de manera contrastiva en pares (video, texto). Esto permite que el modelo se use para tareas como clasificación de video en zero-shot, few-shot o totalmente supervisada y recuperación video-texto.
Como usar
Para ejemplos de código, nos referimos a la documentación.
Funcionalidades
- Extensión mínima de CLIP
- Comprensión general de video-lenguaje
- Entrenamiento contrastivo en pares (video, texto)
- Clasificación de video en modos zero-shot, few-shot o totalmente supervisada
- Recuperación video-texto
Casos de uso
- Clasificación de video en zero-shot
- Clasificación de video en few-shot
- Clasificación de video en modo totalmente supervisado
- Recuperación video-texto