aurelio-ai/xclip-base-patch16-zero-shot

aurelio-ai
Clasificación de video

El modelo X-CLIP (tamaño base, resolución de parche de 16) entrenado en Kinetics-400. Fue introducido en el artículo 'Expanding Language-Image Pretrained Models for General Video Recognition' por Ni et al. y lanzado por primera vez en este repositorio. Este modelo fue entrenado utilizando 32 fotogramas por video, a una resolución de 224x224.

Como usar

Para ejemplos de código, nos referimos a la documentación.

## Preprocesamiento

Los detalles exactos del preprocesamiento durante el entrenamiento pueden encontrarse aquí.
Los detalles exactos del preprocesamiento durante la validación pueden encontrarse aquí.
Durante la validación, se redimensiona el borde más corto de cada fotograma, después de lo cual se realiza un recorte central a una resolución de tamaño fijo (como 224x224). Luego, los fotogramas se normalizan a través de los canales RGB con la media y desviación estándar de ImageNet.

Funcionalidades

X-CLIP es una extensión mínima de CLIP para la comprensión general de video-lenguaje.
El modelo está entrenado de manera contrastiva con pares de (video, texto).
Puede ser utilizado para tareas como clasificación de videos con cero-shots, pocos-shots o completamente supervisadas y recuperación de video-texto.

Casos de uso

Clasificación de videos con cero-shots
Clasificación de videos con pocos-shots
Clasificación de videos completamente supervisada
Recuperación de video-texto