QuantStack/Wan2.2-Fun-A14B-Control-Camera-GGUF

QuantStack

Texto a video

Conversión directa en formato GGUF cuantizado de alibaba-pai/Wan2.2-Fun-A14B-Control-Camera, un modelo Wan2.2 Fun A14B Control Camera para generación de texto a vídeo. Está pensado para usarse en ComfyUI con el nodo personalizado ComfyUI-GGUF, reduciendo el tamaño y los requisitos de ejecución mediante cuantizaciones de 2 a 8 bits, manteniendo los términos de licencia y restricciones del modelo original.

Como usar

El modelo se usa con ComfyUI y el nodo personalizado ComfyUI-GGUF. Los archivos principales del modelo GGUF deben colocarse en ComfyUI/models/unet. Los componentes auxiliares indicados por la tarjeta del modelo se colocan en sus carpetas correspondientes: Clip Vision H en ComfyUI/models/clip_vision, Umt5-xxl en ComfyUI/models/text_encoders y Wan2.1_VAE.safetensors en ComfyUI/models/vae. Para la instalación completa se debe seguir el README de GitHub de ComfyUI-GGUF.

Funcionalidades

Generación de texto a vídeo basada en la arquitectura Wan.
Modelo GGUF cuantizado de aproximadamente 15B parámetros.
Conversión directa del modelo alibaba-pai/Wan2.2-Fun-A14B-Control-Camera.
Compatible con ComfyUI mediante el nodo personalizado ComfyUI-GGUF de city96.
Incluye variantes cuantizadas Q2_K, Q3_K, Q4, Q5, Q6_K y Q8_0 con tamaños aproximados entre 6.32 GB y 16.4 GB.
Requiere componentes auxiliares como Clip Vision H, Umt5-xxl como codificador de texto y Wan2.1_VAE.safetensors para VAE.

Casos de uso

Generar vídeos a partir de prompts de texto en flujos de trabajo de ComfyUI.
Ejecutar Wan2.2 Fun Control Camera en hardware con menos memoria usando cuantización GGUF.
Crear flujos de vídeo controlado por cámara dentro de pipelines locales de ComfyUI.
Probar distintas cuantizaciones para equilibrar calidad, velocidad y consumo de memoria.