aurelio-ai/xclip-base-patch16-zero-shot
aurelio-ai
Clasificación de video
El modelo X-CLIP (tamaño base, resolución de parche de 16) entrenado en Kinetics-400. Fue introducido en el artículo 'Expanding Language-Image Pretrained Models for General Video Recognition' por Ni et al. y lanzado por primera vez en este repositorio. Este modelo fue entrenado utilizando 32 fotogramas por video, a una resolución de 224x224.
Como usar
Para ejemplos de código, nos referimos a la documentación.
## Preprocesamiento
Los detalles exactos del preprocesamiento durante el entrenamiento pueden encontrarse aquí.
Los detalles exactos del preprocesamiento durante la validación pueden encontrarse aquí.
Durante la validación, se redimensiona el borde más corto de cada fotograma, después de lo cual se realiza un recorte central a una resolución de tamaño fijo (como 224x224). Luego, los fotogramas se normalizan a través de los canales RGB con la media y desviación estándar de ImageNet.
Funcionalidades
- X-CLIP es una extensión mínima de CLIP para la comprensión general de video-lenguaje.
- El modelo está entrenado de manera contrastiva con pares de (video, texto).
- Puede ser utilizado para tareas como clasificación de videos con cero-shots, pocos-shots o completamente supervisadas y recuperación de video-texto.
Casos de uso
- Clasificación de videos con cero-shots
- Clasificación de videos con pocos-shots
- Clasificación de videos completamente supervisada
- Recuperación de video-texto