htdong/Wan-Alpha_ComfyUI
Wan-Alpha_ComfyUI es una versión organizada para ComfyUI de Wan-Alpha, un modelo de generación de video a partir de texto adaptado desde Wan2.1-T2V-14B. Está diseñado para producir videos RGBA con canal alfa, permitiendo fondos transparentes, objetos semitransparentes, efectos luminosos y detalles finos como cabello, manteniendo calidad visual, realismo de movimiento y renderizado de transparencia.
Como usar
Instalación básica con Diffusers:
pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("htdong/Wan-Alpha_ComfyUI", dtype=torch.bfloat16, device_map="cuda")
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
Uso de inferencia del proyecto Wan-Alpha:
torchrun --nproc_per_node=8 --master_port=29501 generate_dora_lightx2v.py --size 832*480\
--ckpt_dir "path/to/your/Wan-2.1/Wan2.1-T2V-14B" \
--dit_fsdp --t5_fsdp --ulysses_size 8 \
--vae_lora_checkpoint "path/to/your/decoder.bin" \
--lora_path "path/to/your/epoch-13-1500.safetensors" \
--lightx2v_path "path/to/your/lightx2v_T2V_14B_cfg_step_distill_v2_lora_rank64_bf16.safetensors" \
--sample_guide_scale 1.0 \
--frame_num 81 \
--sample_steps 4 \
--lora_ratio 1.0 \
--lora_prefix "" \
--prompt_file ./data/prompt.txt \
--output_dir ./output
En ComfyUI, los archivos deben copiarse en ComfyUI/models con subcarpetas para diffusion_models, loras, text_encoders y vae. También se indica instalar RGBA_save_tools.py en ComfyUI/custom_nodes para previsualización de video RGBA y empaquetado de frames PNG.
Ejemplo de prompt:
This video has a transparent background. Close-up shot. A colorful parrot flying. Realistic style.
Funcionalidades
- Generación texto-a-video con canal alfa para videos con transparencia.
- Pesos adaptados desde Wan2.1-14B-T2V y base Wan-AI/Wan2.1-T2V-14B.
- Soporte para flujos de trabajo en ComfyUI con modelos separados para DiT, codificador de texto, LoRA y VAE.
- Uso de VAE para representar el canal alfa dentro del espacio latente RGB.
- Compatible con prompts en chino e inglés, incluyendo instrucciones explícitas de fondo transparente, estilo visual, tipo de plano y sujeto principal.
- Incluye modelos para LightX2V, LoRA RGBA Dora, decodificador VAE RGB y decodificador VAE alfa.
- Licencia Apache 2.0.
Casos de uso
- Creación de clips de video con fondo transparente para composición, motion graphics y postproducción.
- Generación de objetos semitransparentes, burbujas, brillos, luces y efectos visuales con canal alfa.
- Producción de assets RGBA para flujos de trabajo en ComfyUI.
- Investigación en generación de video transparente y modelos de difusión para RGB más alfa.
- Creación de secuencias cortas con sujetos aislados sobre fondo transparente para diseño, publicidad o edición de video.