alibaba-pai/Wan2.1-Fun-1.3B-Control
Modelo Wan2.1-Fun de 1.3B parámetros para generación de video con control. Está orientado a crear o transformar videos usando condiciones de control como Canny, profundidad, pose y MLSD, además de control por trayectoria. Fue entrenado para predicción de video multirresolución en 512, 768 y 1024, con clips de 81 fotogramas a 16 FPS, y admite prompts multilingües.
Como usar
Uso recomendado: descargar los pesos del modelo, colocarlos en la carpeta models/Diffusion_Transformer/ del proyecto Wan-Fun/CogVideoX-Fun y ejecutar los scripts correspondientes según el objetivo de predicción. Para este modelo Control, el caso principal es video controlado con entradas preprocesadas como Canny, Pose, Depth o MLSD.
Ejemplo Docker indicado en la página:
# pull image
docker pull mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun
# enter image
docker run -it -p 7860:7860 --network host --gpus all --security-opt seccomp:unconfined --shm-size 200g mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun
# clone code
git clone https://github.com/aigc-apps/CogVideoX-Fun.git
# enter CogVideoX-Fun's dir
cd CogVideoX-Fun
# download weights
mkdir models/Diffusion_Transformer
mkdir models/Personalized_Model
La página también indica modos de ahorro de VRAM: model_cpu_offload, model_cpu_offload_and_qfloat8 y sequential_cpu_offload. Si hay memoria suficiente, se recomienda model_cpu_offload; qfloat8 reduce más memoria pero puede degradar parcialmente la calidad.
Funcionalidades
- Generación de video controlada a partir de señales como Canny, Depth, Pose y MLSD.
- Soporte para control mediante trayectorias.
- Predicción de video en múltiples resoluciones: 512, 768 y 1024.
- Modelo de 1.3B parámetros con pesos de aproximadamente 19 GB.
- Entrenado con secuencias de 81 fotogramas a 16 FPS.
- Compatible con el ecosistema Wan-Fun / VideoX Fun y flujos como ComfyUI, Docker, Gradio UI y scripts Python.
- Licencia Apache 2.0.
Casos de uso
- Generación de videos guiados por mapas Canny, profundidad, pose o líneas MLSD.
- Producción de video controlado a partir de un video de referencia procesado.
- Creación de clips cortos con control de movimiento o trayectoria.
- Experimentación local o en la nube con flujos Wan-Fun mediante Docker, ComfyUI o interfaz Gradio.
- Investigación y prototipado de generación de video multirresolución con prompts multilingües.