microsoft/xclip-base-patch16-16-frames
microsoft
Clasificación de video
El modelo X-CLIP (tamaño base, resolución de parche 16) fue entrenado de manera completamente supervisada en Kinetics-400. Fue presentado en el artículo 'Expanding Language-Image Pretrained Models for General Video Recognition' por Ni et al. y lanzado por primera vez en este repositorio. Este modelo fue entrenado usando 16 cuadros por video, a una resolución de 224x224. X-CLIP es una extensión mínima de CLIP para la comprensión general de video-lenguaje. El modelo está entrenado de manera contrastiva en pares (video, texto), lo que permite que sea usado para tareas como clasificación de video en cero tiros, algunos tiros o completamente supervisada y recuperación de video-texto.
Como usar
Para ejemplos de código, remitirse a la documentación.
Funcionalidades
- Entrenado de manera completamente supervisada en Kinetics-400
- Resuelto en una resolución de parche de 16
- Usa 16 cuadros por video, a una resolución de 224x224
- Comprensión general de video-lenguaje
- Capaz de realizar clasificación de video en cero tiros, algunos tiros o completamente supervisada
- Recuperación de video-texto
Casos de uso
- Determinar qué tan bien un texto se adapta a un video dado
- Clasificación de video en cero tiros
- Clasificación de video en algunos tiros
- Clasificación de video completamente supervisada
- Recuperación de video-texto