adamo1139/stable-diffusion-3.5-medium-ungated

adamo1139

Texto a imagen

Stable Diffusion 3.5 Medium ungated es una republicación sin mecanismo de acceso restringido del modelo Stable Diffusion 3.5 Medium de Stability AI. Es un modelo generativo texto-a-imagen basado en Multimodal Diffusion Transformer con mejoras MMDiT-X, diseñado para generar imágenes desde prompts de texto con mejor calidad visual, tipografía, comprensión de prompts complejos y eficiencia de recursos.

Como usar

Instalación y uso básico con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
    "adamo1139/stable-diffusion-3.5-medium-ungated",
    dtype=torch.bfloat16,
    device_map="cuda"
)

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Uso con StableDiffusion3Pipeline:
pip install -U diffusers

import torch
from diffusers import StableDiffusion3Pipeline

pipe = StableDiffusion3Pipeline.from_pretrained(
    "stabilityai/stable-diffusion-3.5-medium",
    torch_dtype=torch.bfloat16
)
pipe = pipe.to("cuda")

image = pipe(
    "A capybara holding a sign that reads Hello World",
    num_inference_steps=40,
    guidance_scale=4.5,
).images[0]

image.save("capybara.png")

Cuantización para reducir uso de VRAM:
pip install bitsandbytes

from diffusers import BitsAndBytesConfig, SD3Transformer2DModel
from diffusers import StableDiffusion3Pipeline
import torch

model_id = "stabilityai/stable-diffusion-3.5-medium"

nf4_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.bfloat16
)

model_nf4 = SD3Transformer2DModel.from_pretrained(
    model_id,
    subfolder="transformer",
    quantization_config=nf4_config,
    torch_dtype=torch.bfloat16
)

pipeline = StableDiffusion3Pipeline.from_pretrained(
    model_id,
    transformer=model_nf4,
    torch_dtype=torch.bfloat16
)
pipeline.enable_model_cpu_offload()

prompt = "A whimsical and creative image depicting a hybrid creature that is a mix of a waffle and a hippopotamus, basking in a river of melted butter amidst a breakfast-themed landscape. It features the distinctive, bulky body shape of a hippo. However, instead of the usual grey skin, the creature's body resembles a golden-brown, crispy waffle fresh off the griddle. The skin is textured with the familiar grid pattern of a waffle, each square filled with a glistening sheen of syrup. The environment combines the natural habitat of a hippo with elements of a breakfast table setting, a river of warm, melted butter, with oversized utensils or plates peeking out from the lush, pancake-like foliage in the background, a towering pepper mill standing in for a tree. As the sun rises in this fantastical world, it casts a warm, buttery glow over the scene. The creature, content in its butter river, lets out a yawn. Nearby, a flock of birds take flight"

image = pipeline(
    prompt=prompt,
    num_inference_steps=40,
    guidance_scale=4.5,
    max_sequence_length=512,
).images[0]

image.save("whimsical.png")

Limitaciones relevantes: aunque admite prompts largos, pueden aparecer artefactos en los bordes cuando los tokens de T5 superan 256. El modelo Medium puede responder de forma distinta al modelo Large ante el mismo prompt. Se recomienda usar Skip Layer Guidance para mejorar estructura y coherencia anatómica.

Funcionalidades

Modelo texto-a-imagen basado en MMDiT-X.
Usa tres codificadores de texto preentrenados: OpenCLIP-ViT/G, CLIP-ViT/L y T5-xxl.
Incluye QK-normalization para mejorar la estabilidad del entrenamiento.
Añade bloques de atención dual en las primeras capas del transformer para mejorar coherencia y generación multirresolución.
Entrenado con resoluciones progresivas de 256 a 1440 y datos sintéticos junto con datos públicos filtrados.
Compatible con Diffusers, ComfyUI y flujos locales de inferencia.
Puede cuantizarse con bitsandbytes para reducir uso de VRAM.
Publicado bajo Stability AI Community License, con uso permitido para entidades con menos de 1M USD de ingresos anuales.

Casos de uso

Generación de imágenes y obras visuales a partir de prompts de texto.
Diseño, ilustración y otros procesos artísticos creativos.
Herramientas educativas o creativas basadas en generación visual.
Investigación sobre modelos generativos y sus limitaciones.
Inferencia local o autoalojada mediante Diffusers, ComfyUI u otras apps compatibles.