microsoft/xclip-base-patch16-hmdb-4-shot
X-CLIP es una extensión mínima de CLIP para la comprensión general de video-lenguaje. El modelo se entrena de manera contrastiva en pares (video, texto). Esto permite que el modelo se use para tareas como clasificación de video de cero disparos, pocos disparos o completamente supervisada, así como recuperación de video-texto. Este modelo ha sido entrenado en el conjunto de datos HMDB-51 con una resolución de parche de 16 y ha sido liberado por el equipo de Hugging Face.
Como usar
Para ejemplos de código, nos referimos a la documentación. Durante la validación, se redimensiona el borde más corto de cada fotograma, después de lo cual se realiza un recorte central a una resolución de tamaño fijo (como 224x224). A continuación, los fotogramas se normalizan a través de los canales RGB con la media y desviación estándar de ImageNet.
# Ejemplo de código
from transformers import AutoModel, AutoProcessor
model = AutoModel.from_pretrained('microsoft/xclip-base-patch16-hmdb-4-shot')
processor = AutoProcessor.from_pretrained('microsoft/xclip-base-patch16-hmdb-4-shot')
Funcionalidades
- Clasificación de video
- Pocas tomas (K=4)
- Entrenado con 32 fotogramas por video
- Resolución de 224x224 por fotograma
- Comprensión de video-lenguaje
Casos de uso
- Clasificación de video supervisada completamente
- Clasificación de video de cero disparos
- Clasificación de video de pocos disparos
- Recuperación de video-texto