city96/Wan2.1-T2V-14B-gguf

city96

Texto a video

Conversión directa en formato GGUF del modelo Wan-AI/Wan2.1-T2V-14B para generación de video a partir de texto. Está orientado a uso local, especialmente con el nodo personalizado ComfyUI-GGUF, e incluye múltiples cuantizaciones creadas desde el archivo base FP32 para reducir tamaño y requisitos de memoria.

Como usar

Descarga una de las cuantizaciones GGUF y úsala con el nodo personalizado ComfyUI-GGUF. Los archivos del modelo deben colocarse en ComfyUI/models/unet. La VAE necesaria se descarga por separado desde el repositorio indicado por el autor, mantenido por Kijai. Para instalación detallada, consulta el README de ComfyUI-GGUF.

Funcionalidades

Modelo de texto a video basado en Wan2.1-T2V-14B con 14B parámetros.
Distribución en formato GGUF para ejecución local.
Cuantizaciones disponibles desde 3-bit hasta 16-bit, incluyendo Q3_K_S, Q4_K_M, Q5_K_M, Q6_K, Q8_0, BF16 y F16.
Compatible con el nodo personalizado ComfyUI-GGUF.
Archivos de modelo pensados para colocarse en ComfyUI/models/unet.
Licencia Apache 2.0.
No está desplegado actualmente en proveedores de inferencia de Hugging Face.

Casos de uso

Generación local de videos a partir de prompts de texto.
Flujos de trabajo de video generativo en ComfyUI.
Pruebas de distintas cuantizaciones GGUF para equilibrar calidad, tamaño de archivo y uso de memoria.
Experimentación con Wan2.1-T2V-14B sin depender de un proveedor de inferencia alojado.