wangkanai/wan22-qx-encoders-gguf

wangkanai

Texto a video

Conjunto de codificadores de texto UMT5-XXL cuantizados en formato GGUF para WAN 2.2 QX. Convierte prompts de texto en embeddings para flujos de generación de video texto-a-video e imagen-a-video, reduciendo de forma importante el uso de VRAM frente a FP16 y ofreciendo varias opciones de precisión para equilibrar memoria, velocidad y calidad.

Como usar

Ejemplo básico con Diffusers:
from diffusers import DiffusionPipeline
import torch

# Load WAN 2.2 QX pipeline with quantized text encoder
pipe = DiffusionPipeline.from_pretrained(
    "path/to/wan-2.2-qx",
    text_encoder_path="E:/huggingface/wan22-qx-encoders-gguf/text_encoders/umt5-xxl-encoder-q4-k-m.gguf",
    torch_dtype=torch.float16,
    variant="fp16"
)

pipe = pipe.to("cuda")

prompt = "A serene mountain landscape at sunset with flowing clouds"
video_frames = pipe(
    prompt=prompt,
    num_frames=24,
    num_inference_steps=30
).frames

save_video(video_frames, "output.mp4", fps=8)

Uso con llama.cpp:
llama serve -hf wangkanai/wan22-qx-encoders-gguf
llama cli -hf wangkanai/wan22-qx-encoders-gguf

Uso con Ollama:
ollama run hf.co/wangkanai/wan22-qx-encoders-gguf

Para equipos con poca VRAM, el modelo recomienda variantes como Q3_K_S o Q4_K_S junto con enable_attention_slicing() y enable_vae_slicing(). Para mayor calidad, Q6_K o Q8_0 son las opciones más cercanas al codificador original.

Funcionalidades

8 variantes cuantizadas del codificador UMT5-XXL: Q3_K_S, Q3_K_M, Q4_K_S, Q4_K_M, Q5_K_S, Q5_K_M, Q6_K y Q8_0.
Formato GGUF compatible con el ecosistema llama.cpp y con integración en pipelines Diffusers de WAN 2.2 QX.
Reducción aproximada de memoria del 30-70% frente a codificadores FP16, según el nivel de cuantización elegido.
Soporte multilingüe basado en UMT5-XXL, con vocabulario de más de 250.000 tokens y contexto de 512 tokens.
Guía de elección por hardware: Q3/Q4 para baja VRAM, Q4_K_M como equilibrio recomendado, Q6/Q8 para máxima calidad.
Incluye referencias de rendimiento en RTX 4090, con uso de VRAM estimado entre unos 2,9 GB y 7,2 GB según la variante.

Casos de uso

Codificación de prompts para pipelines WAN 2.2 QX de generación texto-a-video.
Generación imagen-a-video donde se necesite comprensión textual multilingüe con menor consumo de memoria.
Prototipado local de flujos de video generativo en GPUs con 4-8 GB de VRAM usando variantes Q3 o Q4.
Producción de mayor calidad en estaciones con 16-24 GB o más de VRAM usando Q5_M, Q6_K o Q8_0.
Comparación por lotes entre niveles de cuantización para medir equilibrio entre calidad visual, consumo de VRAM y velocidad.