QuantStack/Wan2.1_T2V_14B_FusionX-GGUF

QuantStack

Texto a video

Conversión GGUF cuantizada del modelo Wan14BT2VFusioniX_fp16_.safetensors, derivado de Wan-AI/Wan2.1-T2V-14B para generación de video a partir de texto. Incluye múltiples cuantizaciones de 2 a 16 bits para usar el modelo de 14B parámetros en flujos de ComfyUI con el nodo personalizado ComfyUI-GGUF.

Como usar

Los archivos del modelo se usan en ComfyUI con el nodo personalizado ComfyUI-GGUF. Coloca los componentes en estas rutas:
Main Model: Wan2.1_T2V_14B_FusionX-GGUF -> ComfyUI/models/unet
Text Encoder: umt5-xxl-encoder -> ComfyUI/models/text_encoders
VAE: Wan2_1_VAE_bf16 -> ComfyUI/models/vae

Después se puede cargar un workflow de ejemplo de ComfyUI para generar video desde texto. El modelo no está desplegado en proveedores de inferencia de Hugging Face.

Funcionalidades

Modelo de texto a video basado en la arquitectura Wan con 14B parámetros.
Conversión GGUF creada desde el modelo base T2V FP16 usando scripts de city96 para ComfyUI-GGUF.
Variantes cuantizadas Q2_K, Q3_K, Q4, Q5, Q6_K, Q8_0 y F16 con tamaños aproximados entre 5.3 GB y 28.6 GB.
Pensado para ejecución local en ComfyUI mediante el nodo personalizado ComfyUI-GGUF.
Requiere componentes separados para el codificador de texto umt5-xxl-encoder y el VAE Wan2_1_VAE_bf16.

Casos de uso

Generación local de video a partir de prompts de texto en ComfyUI.
Experimentación con cuantizaciones GGUF para reducir memoria y tamaño de descarga frente a FP16.
Flujos creativos basados en Wan2.1 FusionX donde se necesita elegir entre calidad, velocidad y consumo de VRAM.
Pruebas comparativas entre variantes de 2, 3, 4, 5, 6, 8 y 16 bits del mismo modelo.