htdong/Wan-Alpha-v2.0
Wan-Alpha-v2.0 es un modelo de texto a video basado en Wan2.1-14B-T2V para generar videos RGBA con canal alfa estable. Está orientado a crear escenas con fondos transparentes, objetos semitransparentes, efectos luminosos y detalles finos como cabello, usando un aprendiz de distribución RGB-A desplazable.
Como usar
Instalación y uso básico con Diffusers:
pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("htdong/Wan-Alpha-v2.0", dtype=torch.bfloat16, device_map="cuda")
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
Configuración del repositorio oficial:
# Clone the project repository
git clone https://github.com/WeChatCV/Wan-Alpha.git
cd Wan-Alpha
# Create and activate Conda environment
conda create -n Wan-Alpha python=3.11 -y
conda activate Wan-Alpha
# Install dependencies
pip install -r requirements.txt
Inferencia local indicada por la tarjeta del modelo:
torchrun --nproc_per_node=8 --master_port=29501 generate_dora_lightx2v_mask.py --size 832*480\
--ckpt_dir "path/to/your/Wan-2.1/Wan2.1-T2V-14B" \
--dit_fsdp --t5_fsdp --ulysses_size 8 \
--vae_lora_checkpoint "path/to/your/decoder.bin" \
--lora_path "path/to/your/t2v.safetensors" \
--lightx2v_path "path/to/your/lightx2v_T2V_14B_cfg_step_distill_v2_lora_rank64_bf16.safetensors" \
--sample_guide_scale 1.0 \
--frame_num 81 \
--sample_steps 4 \
--lora_ratio 1.0 \
--lora_prefix "" \
--alpha_shift_mean 0.05 \
--cache_path_mask "path/to/your/gauss_mask" \
--prompt_file ./data/prompt.txt \
--output_dir ./output
Parámetros clave: --ckpt_dir apunta a Wan2.1-T2V-14B, --lightx2v_path a LightX2V-T2V-14B, --vae_lora_checkpoint a Wan-Alpha-VAE y --lora_path a Wan-Alpha-T2V. Los videos RGBA renderizados con fondo de tablero y los frames PNG se generan en --output_dir.
Consejo de prompt: especificar que el fondo del video es transparente, el estilo visual, el tipo de plano y el sujeto principal.
This video has a transparent background. Close-up shot. A colorful parrot flying. Realistic style.
Funcionalidades
- Generación de video desde texto con canal alfa/transparencia.
- Pesos adaptados de Wan2.1-14B-T2V y publicados con licencia Apache 2.0.
- Produce videos RGBA renderizados, fondos transparentes y frames PNG.
- Soporta prompts en chino e inglés.
- Incluye integración con Diffusers y flujo de inferencia local mediante torchrun.
- Usa componentes de Wan2.1, LightX2V y Wan-Alpha VAE para generación/aceleración.
Casos de uso
- Crear clips de producto, personajes u objetos con fondo transparente para composición en video.
- Generar efectos visuales semitransparentes o luminosos con canal alfa.
- Producir assets animados RGBA para edición, diseño, motion graphics o pipelines creativos.
- Investigar generación texto-a-video con transparencia estable basada en modelos Wan2.1.