calcuis/sd3.5-large-controlnet

calcuis

Texto a imagen

Versión cuantizada en GGUF de Stable Diffusion 3.5 Large con ControlNets, orientada a generación texto-a-imagen mediante Diffusers o flujos locales en ComfyUI. El modelo usa la arquitectura SD3, tiene 8B parámetros y ofrece variantes cuantizadas Q4_0, Q5_0 y Q8_0 para reducir el tamaño de despliegue frente a los pesos originales.

Como usar

Instalación y uso con Diffusers:
pip install -U diffusers transformers accelerate

from diffusers import ControlNetModel, StableDiffusionControlNetPipeline

controlnet = ControlNetModel.from_pretrained("calcuis/sd3.5-large-controlnet")
pipe = StableDiffusionControlNetPipeline.from_pretrained(
    "stabilityai/stable-diffusion-3.5-controlnets",
    controlnet=controlnet
)

Uso local en ComfyUI: colocar sd3.5_large_controlnet_canny.safetensors en ./ComfyUI/models/controlnet, sd3.5_large-q4_0.gguf en ./ComfyUI/models/unet, los modelos CLIP y T5 en ./ComfyUI/models/clip, y el VAE en ./ComfyUI/models/vae. Después se puede cargar el workflow JSON recomendado para GGUF en el navegador de ComfyUI.

Funcionalidades

Generación texto-a-imagen con ControlNet sobre Stable Diffusion 3.5 Large.
Pesos en formato Safetensors y GGUF para uso local.
Versiones cuantizadas: 4-bit Q4_0 de 4.77 GB, 5-bit Q5_0 de 5.77 GB y 8-bit Q8_0 de 8.78 GB.
Compatible con Diffusers y con flujos de ComfyUI mediante nodos GGUF.
Incluye instrucciones para ControlNet Canny y referencias a flujos alternativos como blur o depth.
No está desplegado actualmente en proveedores de inferencia alojados de Hugging Face.

Casos de uso

Generar imágenes con control estructural usando Canny, blur o depth en ComfyUI.
Ejecutar Stable Diffusion 3.5 Large con ControlNet en hardware local usando pesos GGUF cuantizados.
Prototipar pipelines texto-a-imagen con Diffusers y ControlNet.
Crear flujos de imagen más controlables que una generación texto-a-imagen estándar.