alibaba-pai/Wan2.2-Fun-A14B-Control-Camera

alibaba-pai

Texto a video

Wan2.2-Fun-A14B-Control-Camera es un modelo de generación de video de 14B orientado al control de cámara. Está diseñado para predecir videos multirresolución a 512, 768 y 1024 píxeles, entrenado con secuencias de 81 fotogramas a 16 fps, y admite prompts multilingües. Forma parte de la familia Wan2.2-Fun y se distribuye con licencia Apache 2.0 en Hugging Face.

Como usar

El modelo puede usarse con VideoX-Fun, Wan2.2, ComfyUI, Docker o scripts locales de Python. La página no incluye snippets específicos para las librerías de Hugging Face, pero sí muestra comandos de instalación y arranque:
# pull image
docker pull mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun

# enter image
docker run -it -p 7860:7860 --network host --gpus all --security-opt seccomp:unconfined --shm-size 200g mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun

# clone code
git clone https://github.com/aigc-apps/VideoX-Fun.git

# enter VideoX-Fun's dir
cd VideoX-Fun

# download weights
mkdir models/Diffusion_Transformer
mkdir models/Personalized_Model

También se recomienda colocar los pesos en models/Diffusion_Transformer/ para ejecución con scripts propios, o en ComfyUI/models/Fun_Models/ para usarlo desde ComfyUI. Para reducir consumo de VRAM, el proyecto ofrece modos como model_cpu_offload, model_cpu_offload_and_qfloat8 y sequential_cpu_offload.

Funcionalidades

Generación de video con control de cámara, incluyendo movimientos como pan up, pan down, pan left, pan right, zoom in y zoom out.
Soporte para combinaciones de movimiento de cámara, como pan up + pan left y pan up + pan right.
Predicción de video multirresolución en 512, 768 y 1024 píxeles.
Entrenamiento orientado a clips de 81 fotogramas a 16 fps.
Compatibilidad con prompts en varios idiomas, incluyendo inglés y chino.
Pesos en formato Safetensors y uso dentro del ecosistema VideoX-Fun/Wan2.2.
Modelo grande de aproximadamente 64 GB, pensado para ejecución con GPU y estrategias de ahorro de VRAM.

Casos de uso

Crear videos a partir de prompts con movimientos de cámara dirigidos.
Generar tomas con desplazamientos verticales u horizontales controlados.
Producir clips con zoom in o zoom out manteniendo una trayectoria de cámara específica.
Experimentar con generación de video multirresolución en flujos de trabajo locales, Docker o ComfyUI.
Construir prototipos de video generativo donde el control de cámara sea más importante que una generación genérica sin dirección.