microsoft/xclip-base-patch32-16-frames
El modelo X-CLIP (tamaño base, resolución de parche de 32) se entrenó de manera completamente supervisada en Kinetics-400. Fue introducido en el artículo Expanding Language-Image Pretrained Models for General Video Recognition por Ni et al. y se lanzó por primera vez en este repositorio. Este modelo fue entrenado utilizando 16 fotogramas por video, a una resolución de 224x224. X-CLIP es una extensión mínima de CLIP para la comprensión general del video y el lenguaje. El modelo se entrena de manera contrastiva en pares (video, texto). Esto permite que el modelo se utilice para tareas como clasificación de videos sin supervisión, con poca supervisión o completamente supervisada y recuperación de video-texto.
Como usar
Para ejemplos de código, nos remitimos a la documentación.
Funcionalidades
- Entrenamiento completamente supervisado en Kinetics-400
- Utilización de 16 fotogramas por video
- Resolución de 224x224
- Extensión de CLIP para comprensión de video y lenguaje
- Entrenado de manera contrastiva en pares (video, texto)
Casos de uso
- Clasificación de videos sin supervisión (zero-shot)
- Clasificación de videos con poca supervisión (few-shot)
- Clasificación de videos completamente supervisada
- Recuperación de video-texto