QuantStack/Wan2.2-S2V-14B-GGUF

QuantStack

Texto a video

Conversión directa en formato GGUF del modelo Wan-AI/Wan2.2-S2V-14B para generación de video a partir de texto, preparada para usarse en ComfyUI. Es una versión cuantizada del modelo original, por lo que conserva los términos de licencia Apache 2.0 y las restricciones de uso del modelo base.

Como usar

El modelo se usa en ComfyUI con el nodo personalizado ComfyUI-GGUF. El archivo principal GGUF debe colocarse en ComfyUI/models/unet. Los componentes auxiliares se organizan en sus carpetas correspondientes: el codificador de audio en ComfyUI/models/audio_encoders, el codificador de texto en ComfyUI/models/text_encoders y el VAE en ComfyUI/models/vae.

Funcionalidades

Modelo de texto a video en formato GGUF.
Basado en Wan-AI/Wan2.2-S2V-14B y cuantizado por QuantStack.
Arquitectura Wan con tamaño aproximado de 16B parámetros.
Compatible con ComfyUI mediante el nodo personalizado ComfyUI-GGUF de city96.
Incluye múltiples variantes de cuantización desde 2-bit hasta 8-bit, con tamaños entre 9.51 GB y 19.6 GB.
Requiere componentes asociados como wav2vec2_large_english para audio, Umt5-xxl como codificador de texto y Wan2.1_VAE.safetensors como VAE.

Casos de uso

Generación de video a partir de prompts de texto en flujos de trabajo de ComfyUI.
Ejecución local de Wan2.2-S2V-14B con variantes GGUF cuantizadas para reducir requisitos de almacenamiento y memoria.
Experimentación con distintas cuantizaciones, como Q2_K, Q4_K_M, Q5_K_M, Q6_K o Q8_0, según el hardware disponible.