gpustack/stable-diffusion-v3-5-large-turbo-GGUF

gpustack
Texto a imagen

Versión GGUF experimental de Stable Diffusion 3.5 Large Turbo, un modelo generativo texto-a-imagen MMDiT destilado con Adversarial Diffusion Distillation para generar imágenes de alta calidad en pocas iteraciones de inferencia. Esta publicación de gpustack cuantiza el modelo original de Stability AI para uso local, incluyendo variantes FP16, Q8_0, Q4_1 y Q4_0, y requiere gpustack/llama-box v0.0.75 o superior para el soporte indicado.

Como usar

Instalación y uso con Diffusers:

pip install -U diffusers
import torch
from diffusers import StableDiffusion3Pipeline

pipe = StableDiffusion3Pipeline.from_pretrained(
    "stabilityai/stable-diffusion-3.5-large-turbo",
    torch_dtype=torch.bfloat16
)
pipe = pipe.to("cuda")

image = pipe(
    "A capybara holding a sign that reads Hello Fast World",
    num_inference_steps=4,
    guidance_scale=0.0,
).images[0]

image.save("capybara.png")

Cuantización para reducir VRAM:

pip install bitsandbytes
from diffusers import BitsAndBytesConfig, SD3Transformer2DModel
from diffusers import StableDiffusion3Pipeline
import torch

model_id = "stabilityai/stable-diffusion-3.5-large-turbo"

nf4_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.bfloat16
)

model_nf4 = SD3Transformer2DModel.from_pretrained(
    model_id,
    subfolder="transformer",
    quantization_config=nf4_config,
    torch_dtype=torch.bfloat16
)

t5_nf4 = T5EncoderModel.from_pretrained(
    "diffusers/t5-nf4",
    torch_dtype=torch.bfloat16
)

pipeline = StableDiffusion3Pipeline.from_pretrained(
    model_id,
    transformer=model_nf4,
    text_encoder_3=t5_nf4,
    torch_dtype=torch.bfloat16
)
pipeline.enable_model_cpu_offload()

prompt = "A whimsical and creative image depicting a hybrid creature that is a mix of a waffle and a hippopotamus, basking in a river of melted butter amidst a breakfast-themed landscape."

image = pipeline(
    prompt=prompt,
    num_inference_steps=4,
    guidance_scale=0.0,
    max_sequence_length=512,
).images[0]

image.save("whimsical.png")

Funcionalidades

Generación texto-a-imagen basada en prompts en inglés.
Arquitectura Multimodal Diffusion Transformer con QK-normalization.
Destilación ADD para muestreo rápido, típicamente con 4 pasos de inferencia.
Incluye cuantizaciones GGUF para reducir uso de VRAM y facilitar ejecución local.
Usa tres codificadores de texto preentrenados: OpenCLIP ViT-G, CLIP ViT-L y T5-xxl.
Repositorio orientado a integración local con llama-box, stable-diffusion.cpp y Diffusers.

Casos de uso

Crear obras visuales y piezas de diseño a partir de descripciones de texto.
Integrar generación rápida de imágenes en herramientas creativas o educativas.
Investigar modelos generativos texto-a-imagen, sus límites y su comportamiento con prompts complejos.
Ejecutar inferencia local o autoalojada con variantes cuantizadas para GPUs con menos memoria.