Rob1221rib/wan22-qx-encoders-gguf

Rob1221rib

Texto a video

WAN 2.2 QX Text Encoders (GGUF) es un repositorio de codificadores de texto UMT5-XXL cuantizados en formato GGUF para flujos de generación de video WAN 2.2 QX. Convierte prompts de texto en embeddings para generación texto-a-video e imagen-a-video, reduciendo de forma importante el uso de VRAM frente a variantes FP16.

Como usar

Instalación y uso básico con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
    "Rob1221rib/wan22-qx-encoders-gguf",
    dtype=torch.bfloat16,
    device_map="cuda"
)

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Carga directa de un encoder GGUF con llama-cpp-python:
# !pip install llama-cpp-python
from llama_cpp import Llama

llm = Llama.from_pretrained(
    repo_id="Rob1221rib/wan22-qx-encoders-gguf",
    filename="text_encoders/umt5-xxl-encoder-q3-k-m.gguf",
)

output = llm(
    "Once upon a time,",
    max_tokens=512,
    echo=True
)
print(output)

Uso local con llama.cpp:
curl -LsSf https://llama.app/install.sh | sh

# Start a local OpenAI-compatible server with a web UI:
llama serve -hf Rob1221rib/wan22-qx-encoders-gguf

# Run inference directly in the terminal:
llama cli -hf Rob1221rib/wan22-qx-encoders-gguf

Uso con Ollama o Docker Model Runner:
ollama run hf.co/Rob1221rib/wan22-qx-encoders-gguf

docker model run hf.co/Rob1221rib/wan22-qx-encoders-gguf

Ejemplo de selección de encoder en un pipeline WAN 2.2 QX:
from diffusers import DiffusionPipeline
import torch

pipe = DiffusionPipeline.from_pretrained(
    "path/to/wan-2.2-qx",
    text_encoder_path="E:/huggingface/wan22-qx-encoders-gguf/text_encoders/umt5-xxl-encoder-q4-k-m.gguf",
    torch_dtype=torch.float16,
    variant="fp16"
)

pipe = pipe.to("cuda")

prompt = "A serene mountain landscape at sunset with flowing clouds"
video_frames = pipe(
    prompt=prompt,
    num_frames=24,
    num_inference_steps=30
).frames

save_video(video_frames, "output.mp4", fps=8)

Funcionalidades

8 variantes cuantizadas del codificador UMT5-XXL: Q3_K_S, Q3_K_M, Q4_K_S, Q4_K_M, Q5_K_S, Q5_K_M, Q6_K y Q8_0.
Formato GGUF compatible con el ecosistema llama.cpp y con integración en pipelines Diffusers de WAN 2.2 QX.
Opciones de precisión para equilibrar memoria, calidad y velocidad, desde configuraciones de baja VRAM hasta calidad casi original.
Reducción aproximada de memoria del 30% al 70% frente a FP16, según el nivel de cuantización elegido.
Soporte multilingüe basado en UMT5-XXL, con vocabulario amplio y contexto de 512 tokens.
Guía de hardware por nivel: desde unos 4 GB de VRAM para Q3_K_S hasta 12 GB o más para Q6_K/Q8_0.

Casos de uso

Generación texto-a-video con WAN 2.2 QX usando codificadores de texto cuantizados para reducir VRAM.
Generación imagen-a-video cuando se necesita comprensión textual multilingüe eficiente para prompts complejos.
Prototipado en GPUs con poca memoria usando Q3_K_S, Q3_K_M o Q4_K_S.
Producción con mejor calidad usando Q5_K_M, Q6_K o Q8_0 en GPUs de 16 GB a 24 GB o más.
Comparación de calidad y consumo de memoria entre variantes GGUF para elegir el encoder más adecuado al hardware disponible.
Integración local en herramientas compatibles con llama.cpp, Ollama, LM Studio, Jan, Unsloth Studio, Lemonade o Docker Model Runner.