wangkanai/wan22-fp16-encoders-gguf

wangkanai
Texto a video

Codificadores de texto FP16 en formato GGUF para WAN 2.2, orientados a mejorar la comprensión de prompts y el acondicionamiento de generación de vídeo. El repositorio contiene el encoder UMT5-XXL convertido a GGUF sin cuantización, con precisión completa de 16 bits, pensado para integrarse en pipelines WAN 2.2 de texto a vídeo e imagen a vídeo.

Como usar

Instalación básica con Diffusers:

pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

pipe = DiffusionPipeline.from_pretrained(
    "wangkanai/wan22-fp16-encoders-gguf",
    dtype=torch.bfloat16,
    device_map="cuda"
)

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Uso con llama-cpp-python:

from llama_cpp import Llama

llm = Llama.from_pretrained(
    repo_id="wangkanai/wan22-fp16-encoders-gguf",
    filename="text_encoders/umt5-xxl-encoder-f16.gguf",
)

output = llm(
    "Once upon a time,",
    max_tokens=512,
    echo=True
)
print(output)

Uso en un pipeline WAN 2.2 con Diffusers:

from diffusers import WanPipeline
from diffusers.utils import export_to_video
import torch

pipe = WanPipeline.from_pretrained(
    "Lightricks/wan-2.2",
    text_encoder_path="E:/huggingface/wan22-fp16-encoders-gguf/text_encoders/umt5-xxl-encoder-f16.gguf",
    torch_dtype=torch.float16,
    variant="fp16"
)
pipe.to("cuda")

prompt = "A cat walking on a beach at sunset, cinematic lighting, 4k quality"
video = pipe(
    prompt=prompt,
    num_frames=16,
    num_inference_steps=50,
    guidance_scale=7.5
).frames

export_to_video(video, "output.mp4", fps=8)

Uso con llama.cpp:

llama serve -hf wangkanai/wan22-fp16-encoders-gguf:F16
llama cli -hf wangkanai/wan22-fp16-encoders-gguf:F16

Uso con Ollama:

ollama run hf.co/wangkanai/wan22-fp16-encoders-gguf:F16

Funcionalidades

Encoder de texto UMT5-XXL para el pipeline WAN 2.2.
Formato GGUF con carga por mapeo de memoria para reducir tiempo de carga y sobrecarga de RAM.
Precisión FP16 completa, sin cuantización, para mantener calidad de acondicionamiento.
Soporte multilingüe heredado de la arquitectura Unified Multilingual T5.
Archivo principal text_encoders/umt5-xxl-encoder-f16.gguf de aproximadamente 10.59 GB.
Compatible con Diffusers, transformers, llama.cpp, llama-cpp-python, Ollama, LM Studio, Unsloth Studio, Docker Model Runner y Lemonade.
Requiere hardware alto: mínimo recomendado de 12 GB de VRAM para el encoder y 40 GB o más para el pipeline WAN 2.2 completo.

Casos de uso

Acondicionar prompts complejos en pipelines WAN 2.2 de texto a vídeo.
Mejorar la comprensión semántica de instrucciones detalladas para generación de vídeo.
Usar un encoder de texto multilingüe de alta precisión en flujos de imagen a vídeo.
Ejecutar el componente de texto WAN 2.2 en entornos compatibles con GGUF y llama.cpp.
Probar configuraciones locales de generación de vídeo con menor sobrecarga de carga que formatos estándar.