alibaba-pai/Wan2.1-Fun-14B-Control

alibaba-pai

Texto a video

Wan2.1-Fun-14B-Control es un modelo de generación y control de video de 14B parámetros de Alibaba PAI. Está diseñado para predicción de video condicionada por señales de control como Canny, profundidad, pose y MLSD, además de control por trayectoria. Fue entrenado para generar videos multirresolución a 512, 768 y 1024 píxeles, con secuencias de 81 fotogramas a 16 fps, y admite prompts multilingües.

Como usar

El modelo se usa descargando los pesos de Wan2.1-Fun-14B-Control y colocándolos en la carpeta models, normalmente dentro de models/Diffusion_Transformer/. La página recomienda ejecutarlo mediante VideoX Fun, ComfyUI, Docker, Aliyun DSW o scripts Python locales.
Ejemplo de arranque con Docker indicado en la página:
# pull image
docker pull mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun

# enter image
docker run -it -p 7860:7860 --network host --gpus all --security-opt seccomp:unconfined --shm-size 200g mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun

# clone code
git clone https://github.com/aigc-apps/CogVideoX-Fun.git

# enter CogVideoX-Fun's dir
cd CogVideoX-Fun

# download weights
mkdir models/Diffusion_Transformer
mkdir models/Personalized_Model
# Please use the hugginface link or modelscope link to download the model.
# Wan
# https://huggingface.co/alibaba-pai/Wan2.1-Fun-14B-InP
# https://modelscope.cn/models/PAI/Wan2.1-Fun-14B-InP

Para generación controlada, la documentación indica modificar scripts como examples/cogvideox_fun/predict_v2v_control.py, ajustando control_video, validation_image_end, prompt, neg_prompt, guidance_scale y seed. Los resultados se guardan en carpetas de muestras como samples/cogvideox-fun-videos_v2v_control.

Funcionalidades

Generación de video controlada por entradas como Canny, Depth, Pose y MLSD.
Control de movimiento mediante trayectorias además de mapas de control visual.
Soporte multirresolución para predicción de video en 512, 768 y 1024 píxeles.
Entrenado con videos de 81 fotogramas a 16 fps.
Pesos Safetensors de aproximadamente 47 GB.
Compatible con flujos de trabajo de VideoX Fun, ComfyUI, Docker, Aliyun DSW y ejecución local en Python.
Incluye modos de ahorro de VRAM como model_cpu_offload, model_cpu_offload_and_qfloat8 y sequential_cpu_offload.
Licencia Apache 2.0.

Casos de uso

Generar videos guiados por mapas de borde Canny.
Crear videos condicionados por mapas de profundidad.
Generar animaciones controladas por poses humanas.
Transformar un video de referencia en otro video manteniendo estructura o movimiento.
Producir clips multirresolución a partir de prompts y señales de control visual.
Experimentar con pipelines de video generativo en ComfyUI o Gradio.