calcuis/wan-1.3b-gguf

calcuis

Texto a video

Versión cuantizada en formato GGUF de los modelos Wan 1.3B, basada en Wan-AI/Wan2.1-T2V-1.3B. Está orientada a generación de texto a video y preparada para ejecutarse localmente con gguf-connector, gguf-node y flujos de ComfyUI compatibles con GGUF.

Como usar

Puede ejecutarse directamente con gguf-connector seleccionando un archivo GGUF en el directorio actual:
ggc w2

Ejemplo de selección interactiva:
GGUF file(s) available. Select which one to use:
wan2.1-t2v-1.3b-q4_0.gguf
wan2.1-t2v-1.3b-q8_0.gguf
wan2.1-vace-1.3b-q4_0.gguf
wan2.1-vace-1.3b-q8_0.gguf
Enter your choice (1 to 4): _

Para usarlo con gguf-node en ComfyUI:
Arrastra wan a ./ComfyUI/models/diffusion_models
Arrastra umt5 a ./ComfyUI/models/text_encoders
Arrastra pig a ./ComfyUI/models/vae

Prompt de ejemplo:
Prompt: a pig moving quickly in a beautiful winter scenery nature trees sunset tracking camera
Negative Prompt: blurry ugly bad

Nota operativa: para el encoder UMT5 en GGUF puede aparecer un error de memoria después de reconstruir el tokenizer en el primer prompt; una vez creado durante la sesión, repetir el prompt debería funcionar.

Funcionalidades

Generación de video a partir de texto con la arquitectura Wan 2.1 T2V de 1.3B.
Distribución en múltiples cuantizaciones GGUF, incluidas Q2_K, Q3, Q4, Q5, Q6_K, Q8_0, BF16 y F16.
Compatible con ComfyUI mediante comfyui-gguf y nodos GGUF.
Incluye variantes Wan T2V y VACE; la variante VACE se recomienda para i2v y v2v porque no necesita Vision CLIP y puede ejecutarse más rápido que la variante fun según pruebas iniciales.
El conjunto GGUF completo puede incluir modelo, encoder UMT5 y VAE para ejecución directa.
Licencia Apache 2.0.

Casos de uso

Crear videos cortos desde prompts de texto en un entorno local con ComfyUI.
Probar modelos Wan 1.3B cuantizados con distintos equilibrios entre tamaño, memoria y calidad.
Ejecutar flujos GGUF completos con modelo, encoder y VAE sin depender de un proveedor de inferencia alojado.
Experimentar con variantes VACE para tareas de imagen a video o video a video cuando se busca evitar Vision CLIP y mejorar velocidad.