wanabmeya/clip_vision_h.safetensors

wanabmeya
Texto a video

Versión cuantizada en GGUF del ecosistema Wan Video para generación de video, publicada en Hugging Face y duplicada desde calcuis/wan-gguf. La página describe flujos de uso en ComfyUI y Diffusers para modelos Wan 2.1, incluyendo componentes como transformer GGUF, codificador UMT5 XXL, VAE Wan y clip-vision-h para flujos image-to-video.

Como usar

Uso en ComfyUI:

  • Arrastrar el GGUF a ./ComfyUI/models/diffusion_models.
  • Arrastrar t5xxl-um a ./ComfyUI/models/text_encoders.
  • Arrastrar el VAE a ./ComfyUI/models/vae.
  • Para workflow i2v, arrastrar clip-vision-h a ./ComfyUI/models/clip_vision.
  • Ejecutar el archivo .bat en el directorio principal si se usa el paquete GGUF indicado.
  • Si se usa el encoder umt5xxl fp8 escalado, activar CPU offload en el GGUF clip loader.

Uso alternativo con Diffusers:

import torch
from transformers import UMT5EncoderModel
from diffusers import AutoencoderKLWan, WanVACEPipeline, WanVACETransformer3DModel, GGUFQuantizationConfig
from diffusers.schedulers.scheduling_unipc_multistep import UniPCMultistepScheduler
from diffusers.utils import export_to_video

model_path = "https://huggingface.co/calcuis/wan-gguf/blob/main/wan2.1-v5-vace-1.3b-q4_0.gguf"
transformer = WanVACETransformer3DModel.from_single_file(
    model_path,
    quantization_config=GGUFQuantizationConfig(compute_dtype=torch.bfloat16),
    torch_dtype=torch.bfloat16,
)
text_encoder = UMT5EncoderModel.from_pretrained(
    "chatpig/umt5xxl-encoder-gguf",
    gguf_file="umt5xxl-encoder-q4_0.gguf",
    torch_dtype=torch.bfloat16,
)
vae = AutoencoderKLWan.from_pretrained(
    "callgg/wan-decoder",
    subfolder="vae",
    torch_dtype=torch.float32
)
pipe = WanVACEPipeline.from_pretrained(
    "callgg/wan-decoder",
    transformer=transformer,
    text_encoder=text_encoder,
    vae=vae,
    torch_dtype=torch.bfloat16
)
flow_shift = 3.0
pipe.scheduler = UniPCMultistepScheduler.from_config(pipe.scheduler.config, flow_shift=flow_shift)
pipe.enable_model_cpu_offload()
pipe.vae.enable_tiling()

prompt = "a pig moving quickly in a beautiful winter scenery nature trees sunset tracking camera"
negative_prompt = "blurry ugly bad"
output = pipe(
    prompt=prompt,
    negative_prompt=negative_prompt,
    width=720,
    height=480,
    num_frames=57,
    num_inference_steps=24,
    guidance_scale=2.5,
    conditioning_scale=0.0,
    generator=torch.Generator().manual_seed(0),
).frames[0]
export_to_video(output, "output.mp4", fps=16)

Funcionalidades

Modelo orientado a Text-to-Video y flujos Wan Video en formato GGUF cuantizado.
Incluye instrucciones para ComfyUI: colocar modelos de difusión, text encoders, VAE y clip-vision-h en sus carpetas correspondientes.
Compatible con flujos i2v mediante clip-vision-h en `./ComfyUI/models/clip_vision`.
La arquitectura indicada es `pig`, usada por gguf-node para cargar modelos, encoder y VAE GGUF.
La página menciona que el modelo 1.3B funciona para t2v y vace, y es adecuado para máquinas antiguas o de gama baja.
Ofrece variantes cuantizadas de 2, 3, 4, 5, 6 y 8 bits, además de pesos F16/F32 según el archivo.
No está desplegado por proveedores de inferencia en Hugging Face en la página proporcionada.

Casos de uso

Generar videos a partir de texto con Wan Video en entornos locales.
Ejecutar workflows Wan 2.1 en ComfyUI usando archivos GGUF cuantizados.
Crear flujos image-to-video con `clip_vision_h` colocado en la carpeta de clip vision de ComfyUI.
Probar inferencia Wan VACE con Diffusers, CPU offload y VAE tiling para reducir consumo de memoria.
Usar variantes GGUF cuantizadas en hardware limitado o máquinas antiguas.