wanabmeya/clip_vision_h.safetensors
wanabmeya
Texto a video
Versión cuantizada en GGUF del ecosistema Wan Video para generación de video, publicada en Hugging Face y duplicada desde calcuis/wan-gguf. La página describe flujos de uso en ComfyUI y Diffusers para modelos Wan 2.1, incluyendo componentes como transformer GGUF, codificador UMT5 XXL, VAE Wan y clip-vision-h para flujos image-to-video.
Como usar
Uso en ComfyUI:
- Arrastrar el GGUF a
./ComfyUI/models/diffusion_models.
- Arrastrar
t5xxl-um a ./ComfyUI/models/text_encoders.
- Arrastrar el VAE a
./ComfyUI/models/vae.
- Para workflow i2v, arrastrar
clip-vision-h a ./ComfyUI/models/clip_vision.
- Ejecutar el archivo
.bat en el directorio principal si se usa el paquete GGUF indicado.
- Si se usa el encoder
umt5xxl fp8 escalado, activar CPU offload en el GGUF clip loader.
Uso alternativo con Diffusers:
import torch
from transformers import UMT5EncoderModel
from diffusers import AutoencoderKLWan, WanVACEPipeline, WanVACETransformer3DModel, GGUFQuantizationConfig
from diffusers.schedulers.scheduling_unipc_multistep import UniPCMultistepScheduler
from diffusers.utils import export_to_video
model_path = "https://huggingface.co/calcuis/wan-gguf/blob/main/wan2.1-v5-vace-1.3b-q4_0.gguf"
transformer = WanVACETransformer3DModel.from_single_file(
model_path,
quantization_config=GGUFQuantizationConfig(compute_dtype=torch.bfloat16),
torch_dtype=torch.bfloat16,
)
text_encoder = UMT5EncoderModel.from_pretrained(
"chatpig/umt5xxl-encoder-gguf",
gguf_file="umt5xxl-encoder-q4_0.gguf",
torch_dtype=torch.bfloat16,
)
vae = AutoencoderKLWan.from_pretrained(
"callgg/wan-decoder",
subfolder="vae",
torch_dtype=torch.float32
)
pipe = WanVACEPipeline.from_pretrained(
"callgg/wan-decoder",
transformer=transformer,
text_encoder=text_encoder,
vae=vae,
torch_dtype=torch.bfloat16
)
flow_shift = 3.0
pipe.scheduler = UniPCMultistepScheduler.from_config(pipe.scheduler.config, flow_shift=flow_shift)
pipe.enable_model_cpu_offload()
pipe.vae.enable_tiling()
prompt = "a pig moving quickly in a beautiful winter scenery nature trees sunset tracking camera"
negative_prompt = "blurry ugly bad"
output = pipe(
prompt=prompt,
negative_prompt=negative_prompt,
width=720,
height=480,
num_frames=57,
num_inference_steps=24,
guidance_scale=2.5,
conditioning_scale=0.0,
generator=torch.Generator().manual_seed(0),
).frames[0]
export_to_video(output, "output.mp4", fps=16)
Funcionalidades
- Modelo orientado a Text-to-Video y flujos Wan Video en formato GGUF cuantizado.
- Incluye instrucciones para ComfyUI: colocar modelos de difusión, text encoders, VAE y clip-vision-h en sus carpetas correspondientes.
- Compatible con flujos i2v mediante clip-vision-h en `./ComfyUI/models/clip_vision`.
- La arquitectura indicada es `pig`, usada por gguf-node para cargar modelos, encoder y VAE GGUF.
- La página menciona que el modelo 1.3B funciona para t2v y vace, y es adecuado para máquinas antiguas o de gama baja.
- Ofrece variantes cuantizadas de 2, 3, 4, 5, 6 y 8 bits, además de pesos F16/F32 según el archivo.
- No está desplegado por proveedores de inferencia en Hugging Face en la página proporcionada.
Casos de uso
- Generar videos a partir de texto con Wan Video en entornos locales.
- Ejecutar workflows Wan 2.1 en ComfyUI usando archivos GGUF cuantizados.
- Crear flujos image-to-video con `clip_vision_h` colocado en la carpeta de clip vision de ComfyUI.
- Probar inferencia Wan VACE con Diffusers, CPU offload y VAE tiling para reducir consumo de memoria.
- Usar variantes GGUF cuantizadas en hardware limitado o máquinas antiguas.