alibaba-pai/Wan2.2-VACE-Fun-A14B
Wan2.2-VACE-Fun-A14B es un modelo de generación de vídeo basado en Wan2.2-T2V-A14B y entrenado con el esquema VACE. Está orientado a vídeo controlado: acepta condiciones como Canny, Depth, Pose, MLSD, control por trayectoria e imagen de referencia, y también permite generar vídeo especificando un sujeto. Usa pesos de 64 GB, licencia Apache 2.0 y está preparado para predicción multirresolución en 512, 768 y 1024, entrenado con vídeos de 81 fotogramas a 16 fps y soporte multilingüe.
Como usar
El modelo puede usarse desde VideoX-Fun/Wan2.2, ComfyUI, Docker o scripts Python locales. En Hugging Face no hay snippets oficiales para las librerías VideoX Fun o Wan2.2, pero la página incluye comandos de arranque con Docker:
# pull image
docker pull mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun
# enter image
docker run -it -p 7860:7860 --network host --gpus all --security-opt seccomp:unconfined --shm-size 200g mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun
# clone code
git clone https://github.com/aigc-apps/VideoX-Fun.git
# enter VideoX-Fun's dir
cd VideoX-Fun
# download weights
mkdir models/Diffusion_Transformer
mkdir models/Personalized_Model
Para uso local, se descargan los pesos correspondientes y se colocan en models/Diffusion_Transformer o en ComfyUI/models/Fun_Models/. Después se ejecuta el script adecuado según el objetivo: texto a vídeo, imagen a vídeo, vídeo a vídeo o vídeo controlado. La página recomienda model_cpu_offload cuando hay VRAM suficiente, y model_cpu_offload_and_qfloat8 o sequential_cpu_offload cuando se necesita reducir más el consumo de memoria.
Funcionalidades
- Generación de vídeo controlada con Canny, Depth, Pose, MLSD y otros mapas de control.
- Control por trayectoria para guiar el movimiento dentro del vídeo generado.
- Uso de imagen de referencia y vídeo de control para condicionar la salida.
- Generación de vídeo a partir de sujeto especificado.
- Soporte multirresolución: 512, 768 y 1024.
- Entrenamiento con secuencias de 81 fotogramas a 16 fps.
- Compatible con flujos de trabajo de VideoX-Fun, Wan2.2, ComfyUI, Docker y scripts Python locales.
- Modos de ahorro de VRAM: model_cpu_offload, model_cpu_offload_and_qfloat8 y sequential_cpu_offload.
Casos de uso
- Crear vídeos desde controles estructurales como Canny, Pose, Depth o MLSD.
- Generar vídeo guiado por una imagen de referencia y un vídeo de control.
- Controlar trayectorias o movimientos de cámara en piezas generativas.
- Producir vídeos multilingües y multirresolución para experimentación creativa o prototipos audiovisuales.
- Ejecutar workflows locales o en la nube mediante ComfyUI, Docker, Aliyun DSW o scripts Python.