microsoft/xclip-large-patch14
Modelo X-CLIP (modelo de gran tamaño, resolución de parches de 14) entrenado completamente en Kinetics-400. Fue presentado en el artículo 'Expanding Language-Image Pretrained Models for General Video Recognition' por Ni et al. y lanzado por primera vez en este repositorio. Este modelo fue entrenado usando 8 fotogramas por video, a una resolución de 224x224. X-CLIP es una extensión mínima de CLIP para la comprensión general del lenguaje de video. El modelo está entrenado de manera contrastiva en pares (video, texto). Esto permite que el modelo se utilice para tareas como la clasificación de video sin ajuste previo, con unos pocos ejemplos o totalmente supervisada, así como la recuperación de video-texto.
Como usar
Para ejemplos de código, nos referimos a la documentación.
Funcionalidades
- Clasificación de video en cero-shot, few-shot o totalmente supervisada
- Extracción de características
- Comprensión general del lenguaje de video
- Funciona con PyTorch y Transformers
- Resolución de parches de 14
- Entrenado en Kinetics-400
Casos de uso
- Clasificación de video sin ajuste previo
- Clasificación de video con unos pocos ejemplos
- Clasificación de video totalmente supervisada
- Recuperación de video-texto