bullerwins/Wan2.2-T2V-A14B-GGUF

bullerwins

Texto a video

Versión cuantizada en formato GGUF de Wan2.2-T2V-A14B, un modelo de generación de video a partir de texto basado en arquitectura Mixture-of-Experts. Está diseñado para crear videos de 5 segundos en resoluciones 480P y 720P, usando un experto de alto ruido para las primeras etapas de denoising y un experto de bajo ruido para refinar los detalles. El repositorio requiere descargar ambos modelos, high-noise y low-noise, y colocarlos en ComfyUI/models/unet para usarlos con ComfyUI-GGUF.

Como usar

Para ComfyUI, descarga tanto el modelo high-noise como el low-noise, colócalos en ComfyUI/models/unet, instala ComfyUI-GGUF de city96 y arrastra el workflow incluido a ComfyUI.
Instalación del repositorio Wan2.2:
git clone https://github.com/Wan-Video/Wan2.2.git
cd Wan2.2
# Ensure torch >= 2.4.0
pip install -r requirements.txt

Descarga con Hugging Face CLI:
pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.2-T2V-A14B --local-dir ./Wan2.2-T2V-A14B

Inferencia texto-a-video en una GPU:
python generate.py --task t2v-A14B --size 1280*720 --ckpt_dir ./Wan2.2-T2V-A14B --offload_model True --convert_model_dtype --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

Inferencia multi-GPU con FSDP y DeepSpeed Ulysses:
torchrun --nproc_per_node=8 generate.py --task t2v-A14B --size 1280*720 --ckpt_dir ./Wan2.2-T2V-A14B --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

Inferencia con extensión de prompt usando Dashscope:
DASH_API_KEY=your_key torchrun --nproc_per_node=8 generate.py --task t2v-A14B --size 1280*720 --ckpt_dir ./Wan2.2-T2V-A14B --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage" --use_prompt_extend --prompt_extend_method 'dashscope' --prompt_extend_target_lang 'zh'

Inferencia con extensión local mediante Qwen:
torchrun --nproc_per_node=8 generate.py --task t2v-A14B --size 1280*720 --ckpt_dir ./Wan2.2-T2V-A14B --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage" --use_prompt_extend --prompt_extend_method 'local_qwen' --prompt_extend_target_lang 'zh'

Funcionalidades

Generación texto-a-video con soporte para 480P y 720P.
Arquitectura Mixture-of-Experts con unos 14B parámetros activos por paso y 27B parámetros totales en la serie A14B.
Flujo de denoising dividido entre un experto de alto ruido para composición general y otro de bajo ruido para detalles finos.
Entrenamiento mejorado frente a Wan2.1 con más imágenes y videos, orientado a movimiento complejo, semántica y estética cinematográfica.
Cuantizaciones GGUF disponibles desde 2-bit hasta 8-bit, con tamaños aproximados de 5.3 GB a 15.4 GB.
Compatible con ComfyUI mediante ComfyUI-GGUF de city96 y workflows incluidos en los archivos del modelo.
Licencia Apache 2.0.

Casos de uso

Crear clips de video cortos a partir de descripciones textuales con estilo cinematográfico.
Generar videos de 5 segundos en 480P o 720P para investigación, prototipado creativo y flujos de producción audiovisual.
Experimentar con modelos de difusión de video MoE cuantizados en GGUF dentro de ComfyUI.
Comparar inferencia single-GPU, multi-GPU y flujos con extensión de prompt para mejorar detalle y coherencia visual.