wanabmeya/clip_vision_h.safetensors

wanabmeya

Texto a video

Versión cuantizada en GGUF del ecosistema Wan Video para generación de video, publicada en Hugging Face y duplicada desde calcuis/wan-gguf. La página describe flujos de uso en ComfyUI y Diffusers para modelos Wan 2.1, incluyendo componentes como transformer GGUF, codificador UMT5 XXL, VAE Wan y clip-vision-h para flujos image-to-video.

Como usar

Uso en ComfyUI:

Arrastrar el GGUF a ./ComfyUI/models/diffusion_models.
Arrastrar t5xxl-um a ./ComfyUI/models/text_encoders.
Arrastrar el VAE a ./ComfyUI/models/vae.
Para workflow i2v, arrastrar clip-vision-h a ./ComfyUI/models/clip_vision.
Ejecutar el archivo .bat en el directorio principal si se usa el paquete GGUF indicado.
Si se usa el encoder umt5xxl fp8 escalado, activar CPU offload en el GGUF clip loader.

Uso alternativo con Diffusers:
import torch
from transformers import UMT5EncoderModel
from diffusers import AutoencoderKLWan, WanVACEPipeline, WanVACETransformer3DModel, GGUFQuantizationConfig
from diffusers.schedulers.scheduling_unipc_multistep import UniPCMultistepScheduler
from diffusers.utils import export_to_video

model_path = "https://huggingface.co/calcuis/wan-gguf/blob/main/wan2.1-v5-vace-1.3b-q4_0.gguf"
transformer = WanVACETransformer3DModel.from_single_file(
    model_path,
    quantization_config=GGUFQuantizationConfig(compute_dtype=torch.bfloat16),
    torch_dtype=torch.bfloat16,
)
text_encoder = UMT5EncoderModel.from_pretrained(
    "chatpig/umt5xxl-encoder-gguf",
    gguf_file="umt5xxl-encoder-q4_0.gguf",
    torch_dtype=torch.bfloat16,
)
vae = AutoencoderKLWan.from_pretrained(
    "callgg/wan-decoder",
    subfolder="vae",
    torch_dtype=torch.float32
)
pipe = WanVACEPipeline.from_pretrained(
    "callgg/wan-decoder",
    transformer=transformer,
    text_encoder=text_encoder,
    vae=vae,
    torch_dtype=torch.bfloat16
)
flow_shift = 3.0
pipe.scheduler = UniPCMultistepScheduler.from_config(pipe.scheduler.config, flow_shift=flow_shift)
pipe.enable_model_cpu_offload()
pipe.vae.enable_tiling()

prompt = "a pig moving quickly in a beautiful winter scenery nature trees sunset tracking camera"
negative_prompt = "blurry ugly bad"
output = pipe(
    prompt=prompt,
    negative_prompt=negative_prompt,
    width=720,
    height=480,
    num_frames=57,
    num_inference_steps=24,
    guidance_scale=2.5,
    conditioning_scale=0.0,
    generator=torch.Generator().manual_seed(0),
).frames[0]
export_to_video(output, "output.mp4", fps=16)

Funcionalidades

Modelo orientado a Text-to-Video y flujos Wan Video en formato GGUF cuantizado.
Incluye instrucciones para ComfyUI: colocar modelos de difusión, text encoders, VAE y clip-vision-h en sus carpetas correspondientes.
Compatible con flujos i2v mediante clip-vision-h en `./ComfyUI/models/clip_vision`.
La arquitectura indicada es `pig`, usada por gguf-node para cargar modelos, encoder y VAE GGUF.
La página menciona que el modelo 1.3B funciona para t2v y vace, y es adecuado para máquinas antiguas o de gama baja.
Ofrece variantes cuantizadas de 2, 3, 4, 5, 6 y 8 bits, además de pesos F16/F32 según el archivo.
No está desplegado por proveedores de inferencia en Hugging Face en la página proporcionada.

Casos de uso

Generar videos a partir de texto con Wan Video en entornos locales.
Ejecutar workflows Wan 2.1 en ComfyUI usando archivos GGUF cuantizados.
Crear flujos image-to-video con `clip_vision_h` colocado en la carpeta de clip vision de ComfyUI.
Probar inferencia Wan VACE con Diffusers, CPU offload y VAE tiling para reducir consumo de memoria.
Usar variantes GGUF cuantizadas en hardware limitado o máquinas antiguas.