adamo1139/stable-diffusion-3.5-large-turbo-ungated

adamo1139
Texto a imagen

Stable Diffusion 3.5 Large Turbo Ungated es una recarga sin mecanismo de acceso restringido del modelo Stable Diffusion 3.5 Large Turbo de Stability AI. Es un modelo generativo texto-a-imagen basado en Multimodal Diffusion Transformer (MMDiT) y destilación adversarial de difusión (ADD), diseñado para generar imágenes de alta calidad desde prompts de texto con pocos pasos de inferencia, mejor comprensión de prompts complejos, mejor tipografía y mayor eficiencia de recursos.

Como usar

Instalación y uso básico con Diffusers:

pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
    "adamo1139/stable-diffusion-3.5-large-turbo-ungated",
    dtype=torch.bfloat16,
    device_map="cuda"
)

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Ejemplo recomendado para StableDiffusion3Pipeline con 4 pasos de inferencia:

pip install -U diffusers
import torch
from diffusers import StableDiffusion3Pipeline

pipe = StableDiffusion3Pipeline.from_pretrained(
    "stabilityai/stable-diffusion-3.5-large-turbo",
    torch_dtype=torch.bfloat16
)
pipe = pipe.to("cuda")

image = pipe(
    "A capybara holding a sign that reads Hello Fast World",
    num_inference_steps=4,
    guidance_scale=0.0,
).images[0]

image.save("capybara.png")

Cuantización para reducir el uso de VRAM:

pip install bitsandbytes
from diffusers import BitsAndBytesConfig, SD3Transformer2DModel
from diffusers import StableDiffusion3Pipeline
import torch

model_id = "stabilityai/stable-diffusion-3.5-large-turbo"

nf4_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.bfloat16
)

model_nf4 = SD3Transformer2DModel.from_pretrained(
    model_id,
    subfolder="transformer",
    quantization_config=nf4_config,
    torch_dtype=torch.bfloat16
)

t5_nf4 = T5EncoderModel.from_pretrained(
    "diffusers/t5-nf4",
    torch_dtype=torch.bfloat16
)

pipeline = StableDiffusion3Pipeline.from_pretrained(
    model_id,
    transformer=model_nf4,
    text_encoder_3=t5_nf4,
    torch_dtype=torch.bfloat16
)
pipeline.enable_model_cpu_offload()

prompt = "A whimsical and creative image depicting a hybrid creature that is a mix of a waffle and a hippopotamus..."

image = pipeline(
    prompt=prompt,
    num_inference_steps=4,
    guidance_scale=0.0,
    max_sequence_length=512,
).images[0]

image.save("whimsical.png")

Funcionalidades

Generación texto-a-imagen con arquitectura MMDiT.
Versión sin gating del modelo Stable Diffusion 3.5 Large Turbo original.
Destilación ADD para muestreo de alta calidad en unos 4 pasos.
Uso de tres codificadores de texto preentrenados: OpenCLIP-ViT/G, CLIP-ViT/L y T5-XXL.
QK-normalization para mejorar la estabilidad del entrenamiento.
Soporte para Diffusers, ComfyUI, flujos locales y cuantización para reducir uso de VRAM.
Licencia Stability AI Community License, con uso comercial permitido para organizaciones o individuos con menos de 1 millón de dólares de ingresos anuales.

Casos de uso

Generación de arte e imágenes a partir de prompts de texto.
Procesos de diseño, exploración visual y creación artística.
Herramientas educativas o creativas que necesiten generación visual rápida.
Investigación sobre modelos generativos y sus limitaciones.
Inferencia local o autoalojada mediante Diffusers, ComfyUI u otras aplicaciones compatibles.