Stable Diffusion 3.5 Medium

stabilityai
Texto a imagen

Modelo generativo de texto a imagen de Stability AI basado en un Multimodal Diffusion Transformer mejorado (MMDiT-X). Está orientado a generar imágenes con mejor calidad visual, tipografía más sólida, comprensión de prompts complejos y mayor eficiencia de recursos que iteraciones anteriores, usando tres codificadores de texto fijos, normalización QK y bloques de doble atención en las primeras capas del transformador.

Como usar

Puede cargarse con diffusers para inferencia local en GPU.

import torch
from diffusers import StableDiffusion3Pipeline

pipe = StableDiffusion3Pipeline.from_pretrained(
    "stabilityai/stable-diffusion-3.5-medium",
    torch_dtype=torch.bfloat16
)
pipe = pipe.to("cuda")

image = pipe(
    "A capybara holding a sign that reads Hello World",
    num_inference_steps=40,
    guidance_scale=4.5,
).images[0]

image.save("capybara.png")

También puede cuantizarse con bitsandbytes para ejecutarse en GPUs con menos VRAM.

from diffusers import BitsAndBytesConfig, SD3Transformer2DModel
from diffusers import StableDiffusion3Pipeline
import torch

model_id = "stabilityai/stable-diffusion-3.5-medium"

nf4_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.bfloat16
)

model_nf4 = SD3Transformer2DModel.from_pretrained(
    model_id,
    subfolder="transformer",
    quantization_config=nf4_config,
    torch_dtype=torch.bfloat16
)

pipeline = StableDiffusion3Pipeline.from_pretrained(
    model_id,
    transformer=model_nf4,
    torch_dtype=torch.bfloat16
)
pipeline.enable_model_cpu_offload()

prompt = "A whimsical and creative image depicting a hybrid creature that is a mix of a waffle and a hippopotamus..."
image = pipeline(
    prompt=prompt,
    num_inference_steps=40,
    guidance_scale=4.5,
    max_sequence_length=512,
).images[0]

image.save("whimsical.png")

Funcionalidades

Generación de imágenes a partir de texto
Arquitectura MMDiT-X con mejoras para coherencia y generación multi-resolución
Mejoras en tipografía, calidad estética y comprensión de prompts complejos
Uso de tres codificadores de texto preentrenados: OpenCLIP-ViT/G, CLIP-ViT/L y T5-xxl
Entrenamiento progresivo en múltiples resoluciones hasta 1440
Compatibilidad con Diffusers
Posibilidad de cuantización 4-bit para reducir uso de VRAM
Recomendación de Skip Layer Guidance para mejorar estructura y anatomía

Casos de uso

Generación de ilustraciones y piezas artísticas
Apoyo a procesos de diseño y creatividad visual
Herramientas educativas o creativas basadas en generación de imágenes
Investigación sobre modelos generativos y sus limitaciones