wangkanai/wan22-fp16-encoders-gguf
wangkanai
Texto a video
Codificadores de texto FP16 en formato GGUF para WAN 2.2, orientados a mejorar la comprensión de prompts y el acondicionamiento de generación de vídeo. El repositorio contiene el encoder UMT5-XXL convertido a GGUF sin cuantización, con precisión completa de 16 bits, pensado para integrarse en pipelines WAN 2.2 de texto a vídeo e imagen a vídeo.
Como usar
Instalación básica con Diffusers:
pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline
pipe = DiffusionPipeline.from_pretrained(
"wangkanai/wan22-fp16-encoders-gguf",
dtype=torch.bfloat16,
device_map="cuda"
)
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
Uso con llama-cpp-python:
from llama_cpp import Llama
llm = Llama.from_pretrained(
repo_id="wangkanai/wan22-fp16-encoders-gguf",
filename="text_encoders/umt5-xxl-encoder-f16.gguf",
)
output = llm(
"Once upon a time,",
max_tokens=512,
echo=True
)
print(output)
Uso en un pipeline WAN 2.2 con Diffusers:
from diffusers import WanPipeline
from diffusers.utils import export_to_video
import torch
pipe = WanPipeline.from_pretrained(
"Lightricks/wan-2.2",
text_encoder_path="E:/huggingface/wan22-fp16-encoders-gguf/text_encoders/umt5-xxl-encoder-f16.gguf",
torch_dtype=torch.float16,
variant="fp16"
)
pipe.to("cuda")
prompt = "A cat walking on a beach at sunset, cinematic lighting, 4k quality"
video = pipe(
prompt=prompt,
num_frames=16,
num_inference_steps=50,
guidance_scale=7.5
).frames
export_to_video(video, "output.mp4", fps=8)
Uso con llama.cpp:
llama serve -hf wangkanai/wan22-fp16-encoders-gguf:F16
llama cli -hf wangkanai/wan22-fp16-encoders-gguf:F16
Uso con Ollama:
ollama run hf.co/wangkanai/wan22-fp16-encoders-gguf:F16
Funcionalidades
- Encoder de texto UMT5-XXL para el pipeline WAN 2.2.
- Formato GGUF con carga por mapeo de memoria para reducir tiempo de carga y sobrecarga de RAM.
- Precisión FP16 completa, sin cuantización, para mantener calidad de acondicionamiento.
- Soporte multilingüe heredado de la arquitectura Unified Multilingual T5.
- Archivo principal text_encoders/umt5-xxl-encoder-f16.gguf de aproximadamente 10.59 GB.
- Compatible con Diffusers, transformers, llama.cpp, llama-cpp-python, Ollama, LM Studio, Unsloth Studio, Docker Model Runner y Lemonade.
- Requiere hardware alto: mínimo recomendado de 12 GB de VRAM para el encoder y 40 GB o más para el pipeline WAN 2.2 completo.
Casos de uso
- Acondicionar prompts complejos en pipelines WAN 2.2 de texto a vídeo.
- Mejorar la comprensión semántica de instrucciones detalladas para generación de vídeo.
- Usar un encoder de texto multilingüe de alta precisión en flujos de imagen a vídeo.
- Ejecutar el componente de texto WAN 2.2 en entornos compatibles con GGUF y llama.cpp.
- Probar configuraciones locales de generación de vídeo con menor sobrecarga de carga que formatos estándar.