QuantStack/Wan2.1_T2V_14B_FusionX-GGUF
QuantStack
Texto a video
Conversión GGUF cuantizada del modelo Wan14BT2VFusioniX_fp16_.safetensors, derivado de Wan-AI/Wan2.1-T2V-14B para generación de video a partir de texto. Incluye múltiples cuantizaciones de 2 a 16 bits para usar el modelo de 14B parámetros en flujos de ComfyUI con el nodo personalizado ComfyUI-GGUF.
Como usar
Los archivos del modelo se usan en ComfyUI con el nodo personalizado ComfyUI-GGUF. Coloca los componentes en estas rutas:
Main Model: Wan2.1_T2V_14B_FusionX-GGUF -> ComfyUI/models/unet
Text Encoder: umt5-xxl-encoder -> ComfyUI/models/text_encoders
VAE: Wan2_1_VAE_bf16 -> ComfyUI/models/vae
Después se puede cargar un workflow de ejemplo de ComfyUI para generar video desde texto. El modelo no está desplegado en proveedores de inferencia de Hugging Face.
Funcionalidades
- Modelo de texto a video basado en la arquitectura Wan con 14B parámetros.
- Conversión GGUF creada desde el modelo base T2V FP16 usando scripts de city96 para ComfyUI-GGUF.
- Variantes cuantizadas Q2_K, Q3_K, Q4, Q5, Q6_K, Q8_0 y F16 con tamaños aproximados entre 5.3 GB y 28.6 GB.
- Pensado para ejecución local en ComfyUI mediante el nodo personalizado ComfyUI-GGUF.
- Requiere componentes separados para el codificador de texto umt5-xxl-encoder y el VAE Wan2_1_VAE_bf16.
Casos de uso
- Generación local de video a partir de prompts de texto en ComfyUI.
- Experimentación con cuantizaciones GGUF para reducir memoria y tamaño de descarga frente a FP16.
- Flujos creativos basados en Wan2.1 FusionX donde se necesita elegir entre calidad, velocidad y consumo de VRAM.
- Pruebas comparativas entre variantes de 2, 3, 4, 5, 6, 8 y 16 bits del mismo modelo.