microsoft/xclip-base-patch16-zero-shot

microsoft

Clasificación de video

X-CLIP es una extensión mínima de CLIP para la comprensión general de video-lenguaje. El modelo está entrenado de manera contrastiva en pares (video, texto). Esto permite que el modelo se utilice para tareas como clasificación de videos zero-shot, few-shot o totalmente supervisada y recuperación de video-texto.

Como usar

Para ejemplos de código, consulte la documentación.
Para más detalles sobre el uso, por favor consulte la documentación.

Durante la validación, redimensionar el borde más corto de cada cuadro, después de lo cual se realiza un recorte central a una resolución de tamaño fijo (como 224x224). Luego, los cuadros se normalizan a través de los canales RGB con la media y la desviación estándar de ImageNet.

Funcionalidades

Clasificación de videos
Transformers
PyTorch
Safetensors
Extracción de características
Visión por computadora

Casos de uso

Clasificación de videos zero-shot
Recuperación de video-texto
Clasificación de videos few-shot
Clasificación de videos totalmente supervisada