Rob1221rib/wan22-qx-encoders-gguf
Rob1221rib
Texto a video
WAN 2.2 QX Text Encoders (GGUF) es un repositorio de codificadores de texto UMT5-XXL cuantizados en formato GGUF para flujos de generación de video WAN 2.2 QX. Convierte prompts de texto en embeddings para generación texto-a-video e imagen-a-video, reduciendo de forma importante el uso de VRAM frente a variantes FP16.
Como usar
Instalación y uso básico con Diffusers:
pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
"Rob1221rib/wan22-qx-encoders-gguf",
dtype=torch.bfloat16,
device_map="cuda"
)
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
Carga directa de un encoder GGUF con llama-cpp-python:
# !pip install llama-cpp-python
from llama_cpp import Llama
llm = Llama.from_pretrained(
repo_id="Rob1221rib/wan22-qx-encoders-gguf",
filename="text_encoders/umt5-xxl-encoder-q3-k-m.gguf",
)
output = llm(
"Once upon a time,",
max_tokens=512,
echo=True
)
print(output)
Uso local con llama.cpp:
curl -LsSf https://llama.app/install.sh | sh
# Start a local OpenAI-compatible server with a web UI:
llama serve -hf Rob1221rib/wan22-qx-encoders-gguf
# Run inference directly in the terminal:
llama cli -hf Rob1221rib/wan22-qx-encoders-gguf
Uso con Ollama o Docker Model Runner:
ollama run hf.co/Rob1221rib/wan22-qx-encoders-gguf
docker model run hf.co/Rob1221rib/wan22-qx-encoders-gguf
Ejemplo de selección de encoder en un pipeline WAN 2.2 QX:
from diffusers import DiffusionPipeline
import torch
pipe = DiffusionPipeline.from_pretrained(
"path/to/wan-2.2-qx",
text_encoder_path="E:/huggingface/wan22-qx-encoders-gguf/text_encoders/umt5-xxl-encoder-q4-k-m.gguf",
torch_dtype=torch.float16,
variant="fp16"
)
pipe = pipe.to("cuda")
prompt = "A serene mountain landscape at sunset with flowing clouds"
video_frames = pipe(
prompt=prompt,
num_frames=24,
num_inference_steps=30
).frames
save_video(video_frames, "output.mp4", fps=8)
Funcionalidades
- 8 variantes cuantizadas del codificador UMT5-XXL: Q3_K_S, Q3_K_M, Q4_K_S, Q4_K_M, Q5_K_S, Q5_K_M, Q6_K y Q8_0.
- Formato GGUF compatible con el ecosistema llama.cpp y con integración en pipelines Diffusers de WAN 2.2 QX.
- Opciones de precisión para equilibrar memoria, calidad y velocidad, desde configuraciones de baja VRAM hasta calidad casi original.
- Reducción aproximada de memoria del 30% al 70% frente a FP16, según el nivel de cuantización elegido.
- Soporte multilingüe basado en UMT5-XXL, con vocabulario amplio y contexto de 512 tokens.
- Guía de hardware por nivel: desde unos 4 GB de VRAM para Q3_K_S hasta 12 GB o más para Q6_K/Q8_0.
Casos de uso
- Generación texto-a-video con WAN 2.2 QX usando codificadores de texto cuantizados para reducir VRAM.
- Generación imagen-a-video cuando se necesita comprensión textual multilingüe eficiente para prompts complejos.
- Prototipado en GPUs con poca memoria usando Q3_K_S, Q3_K_M o Q4_K_S.
- Producción con mejor calidad usando Q5_K_M, Q6_K o Q8_0 en GPUs de 16 GB a 24 GB o más.
- Comparación de calidad y consumo de memoria entre variantes GGUF para elegir el encoder más adecuado al hardware disponible.
- Integración local en herramientas compatibles con llama.cpp, Ollama, LM Studio, Jan, Unsloth Studio, Lemonade o Docker Model Runner.