Intermate/xclip-base-patch16-zero-shot
Intermate
Clasificación de video
El modelo X-CLIP (tamaño base, resolución de parche de 16) está entrenado en Kinetics-400. Fue introducido en el artículo 'Expanding Language-Image Pretrained Models for General Video Recognition' por Ni et al. y fue liberado por primera vez en este repositorio. Este modelo fue entrenado usando 32 frames por video, a una resolución de 224x224. X-CLIP es una extensión mínima de CLIP para la comprensión general de video-lenguaje. El modelo está entrenado de manera contrastiva en pares (video, texto). Esto permite que el modelo se utilice para tareas como clasificación de video de cero disparos, pocos disparos o completamente supervisada y recuperación de video-texto.
Como usar
Para ejemplos de código, nos referimos a la documentación.
Para usar este modelo, puedes hacer algo como esto:
```python
from transformers import AutoModel, AutoProcessor
model = AutoModel.from_pretrained('Intermate/xclip-base-patch16-zero-shot')
processor = AutoProcessor.from_pretrained('Intermate/xclip-base-patch16-zero-shot')
# Agrega código aquí para usar el modelo
Funcionalidades
- Clasificación de video de cero disparos
- Clasificación de video de pocos disparos
- Clasificación de video completamente supervisada
- Recuperación de video-texto
Casos de uso
- Determinar qué tan bien se ajusta un texto a un video dado
- Clasificación de videos sin necesidad de entrenamiento (cero disparos)
- Clasificación de videos con entrenamiento mínimo (pocos disparos)
- Clasificación de videos con entrenamiento completo (totalmente supervisada)
- Recuperación de pares video-texto