rapadilla/xclip-base-patch16-zero-shot

rapadilla
Clasificación de video

El modelo X-CLIP (tamaño base, resolución de parche de 16) entrenado en Kinetics-400. Fue introducido en el artículo 'Expanding Language-Image Pretrained Models for General Video Recognition' por Ni et al. y lanzado por primera vez en este repositorio. Este modelo fue entrenado usando 32 cuadros por video, a una resolución de 224x224. X-CLIP es una extensión mínima de CLIP para la comprensión general de video-lenguaje. El modelo está entrenado de manera contrastiva en pares (video, texto). Esto permite que el modelo se utilice para tareas como clasificación de video sin entrenamiento previo, con pocos ejemplos o completamente supervisada, así como recuperación de video-texto.

Como usar

Para ejemplos de código, nos referimos a la documentación.

Funcionalidades

Entrenado con 32 cuadros por video
Resolución de 224x224
Comprensión general de video-lenguaje
Capaz de clasificación de video sin entrenamiento previo, con pocos ejemplos o totalmente supervisada
Recuperación de video-texto

Casos de uso

Determinación de cuán bien un texto se relaciona con un video dado
Clasificación de videos sin entrenamiento previo
Clasificación de videos con pocos ejemplos
Clasificación de videos totalmente supervisada
Recuperación de video textuales