microsoft/xclip-base-patch16-hmdb-2-shot
X-CLIP (modelo de tamaño base con resolución de parche de 16) entrenado en un enfoque de pocos ejemplos (K=2) en HMDB-51. Fue presentado en el artículo Expanding Language-Image Pretrained Models for General Video Recognition por Ni et al. y lanzado por primera vez en este repositorio. Este modelo fue entrenado usando 32 fotogramas por video, a una resolución de 224x224. Descargo de responsabilidad: El equipo que lanzó X-CLIP no escribió una tarjeta de modelo para este modelo, por lo tanto, esta tarjeta ha sido escrita por el equipo de Hugging Face. X-CLIP es una extensión mínima de CLIP para la comprensión general de video-lenguaje. El modelo está entrenado de manera contrastiva en pares de (video, texto). Esto permite que el modelo se use para tareas como clasificación de video de cero tomas, pocas tomas o totalmente supervisada y recuperación de video-texto.
Como usar
Para ejemplos de código, nos referimos a la documentación.
Exactamente los detalles de preprocesamiento durante el entrenamiento se pueden encontrar aquí.
Exactamente los detalles de preprocesamiento durante la validación se pueden encontrar aquí.
Durante la validación, se redimensiona el borde más corto de cada fotograma, después de lo cual se recorta el centro a una resolución de tamaño fijo (como 224x224). A continuación, se normalizan los fotogramas a través de los canales RGB con la media y desviación estándar de ImageNet.
Funcionalidades
- Extensión mínima de CLIP para la comprensión general de video-lenguaje.
- Entrenado de manera contrastiva en pares de (video, texto).
- Admite clasificación de video y recuperación de video-texto de cero tomas, pocas tomas o totalmente supervisada.
Casos de uso
- Clasificación de video de cero tomas.
- Clasificación de video de pocas tomas.
- Clasificación de video totalmente supervisada.
- Recuperación de video-texto.