alibaba-pai/Wan2.2-VACE-Fun-A14B

alibaba-pai

Texto a video

Wan2.2-VACE-Fun-A14B es un modelo de generación de vídeo basado en Wan2.2-T2V-A14B y entrenado con el esquema VACE. Está orientado a vídeo controlado: acepta condiciones como Canny, Depth, Pose, MLSD, control por trayectoria e imagen de referencia, y también permite generar vídeo especificando un sujeto. Usa pesos de 64 GB, licencia Apache 2.0 y está preparado para predicción multirresolución en 512, 768 y 1024, entrenado con vídeos de 81 fotogramas a 16 fps y soporte multilingüe.

Como usar

El modelo puede usarse desde VideoX-Fun/Wan2.2, ComfyUI, Docker o scripts Python locales. En Hugging Face no hay snippets oficiales para las librerías VideoX Fun o Wan2.2, pero la página incluye comandos de arranque con Docker:
# pull image
docker pull mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun

# enter image
docker run -it -p 7860:7860 --network host --gpus all --security-opt seccomp:unconfined --shm-size 200g mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun

# clone code
git clone https://github.com/aigc-apps/VideoX-Fun.git

# enter VideoX-Fun's dir
cd VideoX-Fun

# download weights
mkdir models/Diffusion_Transformer
mkdir models/Personalized_Model

Para uso local, se descargan los pesos correspondientes y se colocan en models/Diffusion_Transformer o en ComfyUI/models/Fun_Models/. Después se ejecuta el script adecuado según el objetivo: texto a vídeo, imagen a vídeo, vídeo a vídeo o vídeo controlado. La página recomienda model_cpu_offload cuando hay VRAM suficiente, y model_cpu_offload_and_qfloat8 o sequential_cpu_offload cuando se necesita reducir más el consumo de memoria.

Funcionalidades

Generación de vídeo controlada con Canny, Depth, Pose, MLSD y otros mapas de control.
Control por trayectoria para guiar el movimiento dentro del vídeo generado.
Uso de imagen de referencia y vídeo de control para condicionar la salida.
Generación de vídeo a partir de sujeto especificado.
Soporte multirresolución: 512, 768 y 1024.
Entrenamiento con secuencias de 81 fotogramas a 16 fps.
Compatible con flujos de trabajo de VideoX-Fun, Wan2.2, ComfyUI, Docker y scripts Python locales.
Modos de ahorro de VRAM: model_cpu_offload, model_cpu_offload_and_qfloat8 y sequential_cpu_offload.

Casos de uso

Crear vídeos desde controles estructurales como Canny, Pose, Depth o MLSD.
Generar vídeo guiado por una imagen de referencia y un vídeo de control.
Controlar trayectorias o movimientos de cámara en piezas generativas.
Producir vídeos multilingües y multirresolución para experimentación creativa o prototipos audiovisuales.
Ejecutar workflows locales o en la nube mediante ComfyUI, Docker, Aliyun DSW o scripts Python.