calcuis/wan2-gguf

calcuis

Texto a video

Versión cuantizada en formato GGUF de modelos Wan 2.2 para generación de texto a video, pensada para usarse en ComfyUI con nodos GGUF y componentes separados de difusión, codificador de texto UMT5-XXL y VAE.

Como usar

Instalación sugerida en ComfyUI:
Arrastra los modelos Wan a ./ComfyUI/models/diffusion_models
Arrastra umt5xxl a ./ComfyUI/models/text_encoders
Arrastra pig a ./ComfyUI/models/vae

Ejemplos de prompt indicados en la ficha:
Prompt: a cute anime girl picking up a little pinky pig and moving quickly
Negative Prompt: blurry ugly bad

Prompt: drone shot of a volcano erupting with a pig walking on it
Negative Prompt: blurry ugly bad

Notas de configuración: para modelos 5B se recomienda pig-wan2-vae de 1.41 GB; para modelos 14B, pig-wan-vae de 254 MB. La LoRA lite para S2V pesa 1.23 GB y también puede aplicarse al modelo de animación. Para soporte nuevo o completo de cuantización, se indica actualizar el nodo GGUF.

Funcionalidades

Modelo de texto a video basado en Wan 2.2 y empaquetado como cuantizaciones GGUF.
Compatible con ComfyUI mediante gguf-node.
Incluye variantes cuantizadas desde 1 bit hasta 8 bits, además de archivos F16 para VAE.
Tamaños de archivo variados, desde cientos de MB hasta más de 20 GB según cuantización y componente.
Incluye referencias a LoRA Lightning de 4/8 pasos y a modelos base Wan-AI.
No está desplegado en proveedores de inferencia de Hugging Face en la página indicada.

Casos de uso

Generar videos a partir de prompts de texto en flujos de ComfyUI.
Ejecutar variantes cuantizadas de Wan 2.2 en configuraciones con distintas restricciones de memoria.
Probar flujos de animación o S2V con LoRA ligera y VAE específico.
Experimentar con diferentes niveles de cuantización GGUF para equilibrar tamaño, rendimiento y calidad.