calcuis/sd3.5-large-controlnet
calcuis
Texto a imagen
Versión cuantizada en GGUF de Stable Diffusion 3.5 Large con ControlNets, orientada a generación texto-a-imagen mediante Diffusers o flujos locales en ComfyUI. El modelo usa la arquitectura SD3, tiene 8B parámetros y ofrece variantes cuantizadas Q4_0, Q5_0 y Q8_0 para reducir el tamaño de despliegue frente a los pesos originales.
Como usar
Instalación y uso con Diffusers:
pip install -U diffusers transformers accelerate
from diffusers import ControlNetModel, StableDiffusionControlNetPipeline
controlnet = ControlNetModel.from_pretrained("calcuis/sd3.5-large-controlnet")
pipe = StableDiffusionControlNetPipeline.from_pretrained(
"stabilityai/stable-diffusion-3.5-controlnets",
controlnet=controlnet
)
Uso local en ComfyUI: colocar sd3.5_large_controlnet_canny.safetensors en ./ComfyUI/models/controlnet, sd3.5_large-q4_0.gguf en ./ComfyUI/models/unet, los modelos CLIP y T5 en ./ComfyUI/models/clip, y el VAE en ./ComfyUI/models/vae. Después se puede cargar el workflow JSON recomendado para GGUF en el navegador de ComfyUI.
Funcionalidades
- Generación texto-a-imagen con ControlNet sobre Stable Diffusion 3.5 Large.
- Pesos en formato Safetensors y GGUF para uso local.
- Versiones cuantizadas: 4-bit Q4_0 de 4.77 GB, 5-bit Q5_0 de 5.77 GB y 8-bit Q8_0 de 8.78 GB.
- Compatible con Diffusers y con flujos de ComfyUI mediante nodos GGUF.
- Incluye instrucciones para ControlNet Canny y referencias a flujos alternativos como blur o depth.
- No está desplegado actualmente en proveedores de inferencia alojados de Hugging Face.
Casos de uso
- Generar imágenes con control estructural usando Canny, blur o depth en ComfyUI.
- Ejecutar Stable Diffusion 3.5 Large con ControlNet en hardware local usando pesos GGUF cuantizados.
- Prototipar pipelines texto-a-imagen con Diffusers y ControlNet.
- Crear flujos de imagen más controlables que una generación texto-a-imagen estándar.