Intermate/xclip-base-patch16-zero-shot

Intermate
Clasificación de video

El modelo X-CLIP (tamaño base, resolución de parche de 16) está entrenado en Kinetics-400. Fue introducido en el artículo 'Expanding Language-Image Pretrained Models for General Video Recognition' por Ni et al. y fue liberado por primera vez en este repositorio. Este modelo fue entrenado usando 32 frames por video, a una resolución de 224x224. X-CLIP es una extensión mínima de CLIP para la comprensión general de video-lenguaje. El modelo está entrenado de manera contrastiva en pares (video, texto). Esto permite que el modelo se utilice para tareas como clasificación de video de cero disparos, pocos disparos o completamente supervisada y recuperación de video-texto.

Como usar

Para ejemplos de código, nos referimos a la documentación.

Para usar este modelo, puedes hacer algo como esto:

```python
from transformers import AutoModel, AutoProcessor

model = AutoModel.from_pretrained('Intermate/xclip-base-patch16-zero-shot')
processor = AutoProcessor.from_pretrained('Intermate/xclip-base-patch16-zero-shot')

# Agrega código aquí para usar el modelo

Funcionalidades

Clasificación de video de cero disparos
Clasificación de video de pocos disparos
Clasificación de video completamente supervisada
Recuperación de video-texto

Casos de uso

Determinar qué tan bien se ajusta un texto a un video dado
Clasificación de videos sin necesidad de entrenamiento (cero disparos)
Clasificación de videos con entrenamiento mínimo (pocos disparos)
Clasificación de videos con entrenamiento completo (totalmente supervisada)
Recuperación de pares video-texto