htdong/Wan-Alpha_ComfyUI

htdong

Texto a video

Wan-Alpha_ComfyUI es una versión organizada para ComfyUI de Wan-Alpha, un modelo de generación de video a partir de texto adaptado desde Wan2.1-T2V-14B. Está diseñado para producir videos RGBA con canal alfa, permitiendo fondos transparentes, objetos semitransparentes, efectos luminosos y detalles finos como cabello, manteniendo calidad visual, realismo de movimiento y renderizado de transparencia.

Como usar

Instalación básica con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("htdong/Wan-Alpha_ComfyUI", dtype=torch.bfloat16, device_map="cuda")

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Uso de inferencia del proyecto Wan-Alpha:
torchrun --nproc_per_node=8 --master_port=29501 generate_dora_lightx2v.py --size 832*480\
 --ckpt_dir "path/to/your/Wan-2.1/Wan2.1-T2V-14B" \
 --dit_fsdp --t5_fsdp --ulysses_size 8 \
 --vae_lora_checkpoint "path/to/your/decoder.bin" \
 --lora_path "path/to/your/epoch-13-1500.safetensors" \
 --lightx2v_path "path/to/your/lightx2v_T2V_14B_cfg_step_distill_v2_lora_rank64_bf16.safetensors" \
 --sample_guide_scale 1.0 \
 --frame_num 81 \
 --sample_steps 4 \
 --lora_ratio 1.0 \
 --lora_prefix "" \
 --prompt_file ./data/prompt.txt \
 --output_dir ./output

En ComfyUI, los archivos deben copiarse en ComfyUI/models con subcarpetas para diffusion_models, loras, text_encoders y vae. También se indica instalar RGBA_save_tools.py en ComfyUI/custom_nodes para previsualización de video RGBA y empaquetado de frames PNG.
Ejemplo de prompt:
This video has a transparent background. Close-up shot. A colorful parrot flying. Realistic style.

Funcionalidades

Generación texto-a-video con canal alfa para videos con transparencia.
Pesos adaptados desde Wan2.1-14B-T2V y base Wan-AI/Wan2.1-T2V-14B.
Soporte para flujos de trabajo en ComfyUI con modelos separados para DiT, codificador de texto, LoRA y VAE.
Uso de VAE para representar el canal alfa dentro del espacio latente RGB.
Compatible con prompts en chino e inglés, incluyendo instrucciones explícitas de fondo transparente, estilo visual, tipo de plano y sujeto principal.
Incluye modelos para LightX2V, LoRA RGBA Dora, decodificador VAE RGB y decodificador VAE alfa.
Licencia Apache 2.0.

Casos de uso

Creación de clips de video con fondo transparente para composición, motion graphics y postproducción.
Generación de objetos semitransparentes, burbujas, brillos, luces y efectos visuales con canal alfa.
Producción de assets RGBA para flujos de trabajo en ComfyUI.
Investigación en generación de video transparente y modelos de difusión para RGB más alfa.
Creación de secuencias cortas con sujetos aislados sobre fondo transparente para diseño, publicidad o edición de video.