wangkanai/wan22-qx-encoders-gguf
wangkanai
Texto a video
Conjunto de codificadores de texto UMT5-XXL cuantizados en formato GGUF para WAN 2.2 QX. Convierte prompts de texto en embeddings para flujos de generación de video texto-a-video e imagen-a-video, reduciendo de forma importante el uso de VRAM frente a FP16 y ofreciendo varias opciones de precisión para equilibrar memoria, velocidad y calidad.
Como usar
Ejemplo básico con Diffusers:
from diffusers import DiffusionPipeline
import torch
# Load WAN 2.2 QX pipeline with quantized text encoder
pipe = DiffusionPipeline.from_pretrained(
"path/to/wan-2.2-qx",
text_encoder_path="E:/huggingface/wan22-qx-encoders-gguf/text_encoders/umt5-xxl-encoder-q4-k-m.gguf",
torch_dtype=torch.float16,
variant="fp16"
)
pipe = pipe.to("cuda")
prompt = "A serene mountain landscape at sunset with flowing clouds"
video_frames = pipe(
prompt=prompt,
num_frames=24,
num_inference_steps=30
).frames
save_video(video_frames, "output.mp4", fps=8)
Uso con llama.cpp:
llama serve -hf wangkanai/wan22-qx-encoders-gguf
llama cli -hf wangkanai/wan22-qx-encoders-gguf
Uso con Ollama:
ollama run hf.co/wangkanai/wan22-qx-encoders-gguf
Para equipos con poca VRAM, el modelo recomienda variantes como Q3_K_S o Q4_K_S junto con enable_attention_slicing() y enable_vae_slicing(). Para mayor calidad, Q6_K o Q8_0 son las opciones más cercanas al codificador original.
Funcionalidades
- 8 variantes cuantizadas del codificador UMT5-XXL: Q3_K_S, Q3_K_M, Q4_K_S, Q4_K_M, Q5_K_S, Q5_K_M, Q6_K y Q8_0.
- Formato GGUF compatible con el ecosistema llama.cpp y con integración en pipelines Diffusers de WAN 2.2 QX.
- Reducción aproximada de memoria del 30-70% frente a codificadores FP16, según el nivel de cuantización elegido.
- Soporte multilingüe basado en UMT5-XXL, con vocabulario de más de 250.000 tokens y contexto de 512 tokens.
- Guía de elección por hardware: Q3/Q4 para baja VRAM, Q4_K_M como equilibrio recomendado, Q6/Q8 para máxima calidad.
- Incluye referencias de rendimiento en RTX 4090, con uso de VRAM estimado entre unos 2,9 GB y 7,2 GB según la variante.
Casos de uso
- Codificación de prompts para pipelines WAN 2.2 QX de generación texto-a-video.
- Generación imagen-a-video donde se necesite comprensión textual multilingüe con menor consumo de memoria.
- Prototipado local de flujos de video generativo en GPUs con 4-8 GB de VRAM usando variantes Q3 o Q4.
- Producción de mayor calidad en estaciones con 16-24 GB o más de VRAM usando Q5_M, Q6_K o Q8_0.
- Comparación por lotes entre niveles de cuantización para medir equilibrio entre calidad visual, consumo de VRAM y velocidad.