klpostive/wan-gguf

klpostive

Texto a video

Versión cuantizada en formato GGUF de Wan Video, duplicada desde calcuis/wan-gguf. Está orientada a generación de video a partir de texto y flujos Wan en ComfyUI, con variantes cuantizadas para ejecutar modelos Wan, codificador UMT5 XXL y VAE en equipos antiguos o de baja gama.

Como usar

Uso en ComfyUI: colocar los archivos GGUF del modelo en ./ComfyUI/models/diffusion_models, el codificador t5xxl-um en ./ComfyUI/models/text_encoders, el VAE en ./ComfyUI/models/vae y, para flujos i2v, clip-vision-h en ./ComfyUI/models/clip_vision. Después se ejecuta el archivo .bat del directorio principal. Si se usa un encoder UMT5XXL fp8 scaled, la página recomienda activar CPU offload en el cargador GGUF CLIP.
Ejemplo con Diffusers:
import torch
from transformers import UMT5EncoderModel
from diffusers import AutoencoderKLWan, WanVACEPipeline, WanVACETransformer3DModel, GGUFQuantizationConfig
from diffusers.schedulers.scheduling_unipc_multistep import UniPCMultistepScheduler
from diffusers.utils import export_to_video

model_path = "https://huggingface.co/calcuis/wan-gguf/blob/main/wan2.1-v5-vace-1.3b-q4_0.gguf"

transformer = WanVACETransformer3DModel.from_single_file(
    model_path,
    quantization_config=GGUFQuantizationConfig(compute_dtype=torch.bfloat16),
    torch_dtype=torch.bfloat16,
)

text_encoder = UMT5EncoderModel.from_pretrained(
    "chatpig/umt5xxl-encoder-gguf",
    gguf_file="umt5xxl-encoder-q4_0.gguf",
    torch_dtype=torch.bfloat16,
)

vae = AutoencoderKLWan.from_pretrained(
    "callgg/wan-decoder",
    subfolder="vae",
    torch_dtype=torch.float32
)

pipe = WanVACEPipeline.from_pretrained(
    "callgg/wan-decoder",
    transformer=transformer,
    text_encoder=text_encoder,
    vae=vae,
    torch_dtype=torch.bfloat16
)

flow_shift = 3.0
pipe.scheduler = UniPCMultistepScheduler.from_config(pipe.scheduler.config, flow_shift=flow_shift)
pipe.enable_model_cpu_offload()
pipe.vae.enable_tiling()

prompt = "a pig moving quickly in a beautiful winter scenery nature trees sunset tracking camera"
negative_prompt = "blurry ugly bad"

output = pipe(
    prompt=prompt,
    negative_prompt=negative_prompt,
    width=720,
    height=480,
    num_frames=57,
    num_inference_steps=24,
    guidance_scale=2.5,
    conditioning_scale=0.0,
    generator=torch.Generator().manual_seed(0),
).frames[0]

export_to_video(output, "output.mp4", fps=16)

Funcionalidades

Tarea principal: texto a video.
Formato GGUF con múltiples cuantizaciones: Q2_K, Q3_K, Q4, Q5, Q6, Q8, F16 y F32.
Arquitectura declarada: pig, usada como arquitectura compatible para archivos GGUF de modelo, encoder y VAE.
Compatibilidad con ComfyUI mediante gguf-node o comfyui-gguf, con posible ajuste manual de IMG_ARCH_LIST para la arquitectura pig.
Incluye flujos para modelos t2v, i2v y VACE de Wan 2.1, con ejemplos de prompts de video.
El modelo 1.3B t2v/VACE se reporta como funcional y adecuado para máquinas antiguas o de bajo rendimiento.
No está desplegado en proveedores de inferencia de Hugging Face en la página indicada.

Casos de uso

Generar videos cortos a partir de prompts de texto con Wan 2.1 en formato cuantizado.
Ejecutar flujos Wan VACE o t2v en ComfyUI con menor consumo de recursos que pesos completos.
Probar generación de video en hardware antiguo o de baja gama usando variantes GGUF de 1.3B.
Integrar modelos Wan cuantizados en pipelines Diffusers con CPU offload y VAE tiling.