microsoft/xclip-base-patch16-zero-shot
microsoft
Clasificación de video
X-CLIP es una extensión mínima de CLIP para la comprensión general de video-lenguaje. El modelo está entrenado de manera contrastiva en pares (video, texto). Esto permite que el modelo se utilice para tareas como clasificación de videos zero-shot, few-shot o totalmente supervisada y recuperación de video-texto.
Como usar
Para ejemplos de código, consulte la documentación.
Para más detalles sobre el uso, por favor consulte la documentación.
Durante la validación, redimensionar el borde más corto de cada cuadro, después de lo cual se realiza un recorte central a una resolución de tamaño fijo (como 224x224). Luego, los cuadros se normalizan a través de los canales RGB con la media y la desviación estándar de ImageNet.
Funcionalidades
- Clasificación de videos
- Transformers
- PyTorch
- Safetensors
- Extracción de características
- Visión por computadora
Casos de uso
- Clasificación de videos zero-shot
- Recuperación de video-texto
- Clasificación de videos few-shot
- Clasificación de videos totalmente supervisada