alibaba-pai/Wan2.1-Fun-14B-Control
Wan2.1-Fun-14B-Control es un modelo de generación y control de video de 14B parámetros de Alibaba PAI. Está diseñado para predicción de video condicionada por señales de control como Canny, profundidad, pose y MLSD, además de control por trayectoria. Fue entrenado para generar videos multirresolución a 512, 768 y 1024 píxeles, con secuencias de 81 fotogramas a 16 fps, y admite prompts multilingües.
Como usar
El modelo se usa descargando los pesos de Wan2.1-Fun-14B-Control y colocándolos en la carpeta models, normalmente dentro de models/Diffusion_Transformer/. La página recomienda ejecutarlo mediante VideoX Fun, ComfyUI, Docker, Aliyun DSW o scripts Python locales.
Ejemplo de arranque con Docker indicado en la página:
# pull image
docker pull mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun
# enter image
docker run -it -p 7860:7860 --network host --gpus all --security-opt seccomp:unconfined --shm-size 200g mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun
# clone code
git clone https://github.com/aigc-apps/CogVideoX-Fun.git
# enter CogVideoX-Fun's dir
cd CogVideoX-Fun
# download weights
mkdir models/Diffusion_Transformer
mkdir models/Personalized_Model
# Please use the hugginface link or modelscope link to download the model.
# Wan
# https://huggingface.co/alibaba-pai/Wan2.1-Fun-14B-InP
# https://modelscope.cn/models/PAI/Wan2.1-Fun-14B-InP
Para generación controlada, la documentación indica modificar scripts como examples/cogvideox_fun/predict_v2v_control.py, ajustando control_video, validation_image_end, prompt, neg_prompt, guidance_scale y seed. Los resultados se guardan en carpetas de muestras como samples/cogvideox-fun-videos_v2v_control.
Funcionalidades
- Generación de video controlada por entradas como Canny, Depth, Pose y MLSD.
- Control de movimiento mediante trayectorias además de mapas de control visual.
- Soporte multirresolución para predicción de video en 512, 768 y 1024 píxeles.
- Entrenado con videos de 81 fotogramas a 16 fps.
- Pesos Safetensors de aproximadamente 47 GB.
- Compatible con flujos de trabajo de VideoX Fun, ComfyUI, Docker, Aliyun DSW y ejecución local en Python.
- Incluye modos de ahorro de VRAM como model_cpu_offload, model_cpu_offload_and_qfloat8 y sequential_cpu_offload.
- Licencia Apache 2.0.
Casos de uso
- Generar videos guiados por mapas de borde Canny.
- Crear videos condicionados por mapas de profundidad.
- Generar animaciones controladas por poses humanas.
- Transformar un video de referencia en otro video manteniendo estructura o movimiento.
- Producir clips multirresolución a partir de prompts y señales de control visual.
- Experimentar con pipelines de video generativo en ComfyUI o Gradio.