alibaba-pai/Wan2.1-Fun-1.3B-Control

alibaba-pai

Texto a video

Modelo Wan2.1-Fun de 1.3B parámetros para generación de video con control. Está orientado a crear o transformar videos usando condiciones de control como Canny, profundidad, pose y MLSD, además de control por trayectoria. Fue entrenado para predicción de video multirresolución en 512, 768 y 1024, con clips de 81 fotogramas a 16 FPS, y admite prompts multilingües.

Como usar

Uso recomendado: descargar los pesos del modelo, colocarlos en la carpeta models/Diffusion_Transformer/ del proyecto Wan-Fun/CogVideoX-Fun y ejecutar los scripts correspondientes según el objetivo de predicción. Para este modelo Control, el caso principal es video controlado con entradas preprocesadas como Canny, Pose, Depth o MLSD.
Ejemplo Docker indicado en la página:
# pull image
docker pull mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun

# enter image
docker run -it -p 7860:7860 --network host --gpus all --security-opt seccomp:unconfined --shm-size 200g mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun

# clone code
git clone https://github.com/aigc-apps/CogVideoX-Fun.git

# enter CogVideoX-Fun's dir
cd CogVideoX-Fun

# download weights
mkdir models/Diffusion_Transformer
mkdir models/Personalized_Model

La página también indica modos de ahorro de VRAM: model_cpu_offload, model_cpu_offload_and_qfloat8 y sequential_cpu_offload. Si hay memoria suficiente, se recomienda model_cpu_offload; qfloat8 reduce más memoria pero puede degradar parcialmente la calidad.

Funcionalidades

Generación de video controlada a partir de señales como Canny, Depth, Pose y MLSD.
Soporte para control mediante trayectorias.
Predicción de video en múltiples resoluciones: 512, 768 y 1024.
Modelo de 1.3B parámetros con pesos de aproximadamente 19 GB.
Entrenado con secuencias de 81 fotogramas a 16 FPS.
Compatible con el ecosistema Wan-Fun / VideoX Fun y flujos como ComfyUI, Docker, Gradio UI y scripts Python.
Licencia Apache 2.0.

Casos de uso

Generación de videos guiados por mapas Canny, profundidad, pose o líneas MLSD.
Producción de video controlado a partir de un video de referencia procesado.
Creación de clips cortos con control de movimiento o trayectoria.
Experimentación local o en la nube con flujos Wan-Fun mediante Docker, ComfyUI o interfaz Gradio.
Investigación y prototipado de generación de video multirresolución con prompts multilingües.