rapadilla/xclip-base-patch16-zero-shot
rapadilla
Clasificación de video
El modelo X-CLIP (tamaño base, resolución de parche de 16) entrenado en Kinetics-400. Fue introducido en el artículo 'Expanding Language-Image Pretrained Models for General Video Recognition' por Ni et al. y lanzado por primera vez en este repositorio. Este modelo fue entrenado usando 32 cuadros por video, a una resolución de 224x224. X-CLIP es una extensión mínima de CLIP para la comprensión general de video-lenguaje. El modelo está entrenado de manera contrastiva en pares (video, texto). Esto permite que el modelo se utilice para tareas como clasificación de video sin entrenamiento previo, con pocos ejemplos o completamente supervisada, así como recuperación de video-texto.
Como usar
Para ejemplos de código, nos referimos a la documentación.
Funcionalidades
- Entrenado con 32 cuadros por video
- Resolución de 224x224
- Comprensión general de video-lenguaje
- Capaz de clasificación de video sin entrenamiento previo, con pocos ejemplos o totalmente supervisada
- Recuperación de video-texto
Casos de uso
- Determinación de cuán bien un texto se relaciona con un video dado
- Clasificación de videos sin entrenamiento previo
- Clasificación de videos con pocos ejemplos
- Clasificación de videos totalmente supervisada
- Recuperación de video textuales