alibaba-pai/Wan2.1-Fun-V1.1-14B-Control

alibaba-pai

Texto a video

Modelo de generación y control de video de 14B parámetros de la familia Wan2.1-Fun V1.1. Está diseñado para generar videos a partir de texto, imagen de referencia y señales de control visual como Canny, Depth, Pose y MLSD, además de admitir control por trayectoria. Fue entrenado para predicción de video multirresolución en 512, 768 y 1024 píxeles, con secuencias de 81 fotogramas a 16 fps, y soporta prompts multilingües.

Como usar

El modelo se usa dentro del repositorio VideoX-Fun o mediante interfaces compatibles como ComfyUI, Aliyun DSW/Docker o scripts locales de Python. La página no incluye un snippet específico de Hugging Face para la librería VideoX Fun, pero sí muestra comandos de arranque con Docker y preparación del repositorio:
# pull image
docker pull mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun

# enter image
docker run -it -p 7860:7860 --network host --gpus all --security-opt seccomp:unconfined --shm-size 200g mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun

# clone code
git clone https://github.com/aigc-apps/VideoX-Fun.git

# enter VideoX-Fun's dir
cd VideoX-Fun

# download weights
mkdir models/Diffusion_Transformer
mkdir models/Personalized_Model
# Please use the hugginface link or modelscope link to download the model.
# Wan
# https://huggingface.co/alibaba-pai/Wan2.1-Fun-V1.1-14B-InP
# https://modelscope.cn/models/PAI/Wan2.1-Fun-V1.1-14B-InP

Para uso local, se deben colocar los pesos en la carpeta de modelos correspondiente y ejecutar los scripts de ejemplo de VideoX-Fun según el tipo de predicción. Para ahorrar VRAM, la documentación menciona modos como model_cpu_offload, model_cpu_offload_and_qfloat8 y sequential_cpu_offload; qfloat8 reduce el uso de memoria a costa de una posible bajada de calidad.

Funcionalidades

Generación de video condicionada por texto y señales visuales de control.
Soporte para imagen de referencia combinada con video/control de entrada.
Compatibilidad con controles como Canny, Depth, Pose y MLSD.
Control por trayectoria para guiar el movimiento en el video generado.
Predicción de video en resoluciones 512, 768 y 1024.
Entrenado con videos de 81 fotogramas a 16 fps.
Pesos en formato Safetensors, publicados bajo licencia Apache 2.0.
Modelo grande de 14B con aproximadamente 47 GB de pesos.

Casos de uso

Generar videos controlados por mapas Canny, profundidad, pose o líneas MLSD.
Crear video a partir de una imagen de referencia y una señal de control visual.
Guiar movimiento o composición mediante control por trayectoria.
Prototipar flujos de video generativo en ComfyUI o Gradio con VideoX-Fun.
Experimentar con generación de video multilingüe en resoluciones 512, 768 y 1024.