microsoft/xclip-base-patch16-hmdb-8-shot
microsoft
Clasificación de video
El modelo X-CLIP es una extensión mínima de CLIP para la comprensión general de video-lenguaje. El modelo está entrenado de manera contrastiva en pares (video, texto). Esto permite que el modelo se utilice para tareas como clasificación de video sin supervisión, con poca supervisión o total, y recuperación de video-texto. El modelo X-CLIP (tamaño base, resolución de parche de 16) está entrenado de manera few-shot (K=8) en HMDB-51. Fue introducido en el artículo 'Expanding Language-Image Pretrained Models for General Video Recognition' por Ni et al. y se lanzó por primera vez en este repositorio.
Como usar
Para ejemplos de código, nos remitimos a la documentación.
Para usar este modelo para clasificar videos sigue estos pasos:
1. Cargar el modelo:
```python
from transformers import AutoModel, AutoProcessor
model = AutoModel.from_pretrained('microsoft/xclip-base-patch16-hmdb-8-shot')
processor = AutoProcessor.from_pretrained('microsoft/xclip-base-patch16-hmdb-8-shot')
- Preprocesamiento:
Las exactas detalladas del preprocesamiento durante el entrenamiento y la validación se pueden encontrar en la documentación. Durante la validación, se redimensiona el borde más corto de cada frame y se recorta al centro a una resolución fija (como 224x224). Luego, los frames se normalizan a lo largo de los canales RGB con la media y desviación estándar de ImageNet.
Funcionalidades
- Clasificación de video
- Extracción de características
- Entrenado de forma contrastiva en pares (video, texto)
- Puede utilizarse para tareas sin supervisión, con poca supervisión o supervisión total
- Puede utilizarse para recuperación de video-texto
Casos de uso
- Clasificación de video few-shot (K=8)
- Clasificación de video sin supervisión
- Recuperación de video-texto