city96/Wan2.1-Fun-14B-InP-gguf

city96

Texto a video

Conversión directa a GGUF del modelo alibaba-pai/Wan2.1-Fun-14B-InP, orientada a generación de vídeo a partir de texto y flujos de inpainting dentro de la familia Wan2.1-Fun. Está preparada para usarse localmente con el nodo personalizado ComfyUI-GGUF y ofrece múltiples cuantizaciones para ajustar tamaño, memoria y calidad.

Como usar

Coloca los archivos del modelo en ComfyUI/models/unet y úsalo con el nodo personalizado ComfyUI-GGUF. El VAE y archivos adicionales deben descargarse desde Comfy-Org/Wan_2.1_ComfyUI_repackaged, ya que son los mismos que los del modelo base Wan2.1.

Funcionalidades

Modelo de texto a vídeo en formato GGUF.
Basado en alibaba-pai/Wan2.1-Fun-14B-InP.
Arquitectura Wan con aproximadamente 16B parámetros.
Compatible con ComfyUI mediante el nodo personalizado ComfyUI-GGUF.
Archivos cuantizados disponibles desde 2-bit hasta BF16, con tamaños aproximados entre 6.02 GB y 32.8 GB.
Licencia Apache 2.0.
Soporta contenido en inglés y chino según las etiquetas del repositorio.
No está desplegado en proveedores de inferencia de Hugging Face en la página indicada.

Casos de uso

Generación local de vídeo a partir de prompts de texto en ComfyUI.
Flujos creativos de vídeo e inpainting basados en Wan2.1-Fun.
Experimentación con diferentes niveles de cuantización GGUF para equilibrar memoria, velocidad y calidad.
Ejecución local de un modelo Wan2.1-Fun de 14B/16B parámetros sin depender de un proveedor de inferencia alojado.