adamo1139/stable-diffusion-3.5-large-ungated

adamo1139

Texto a imagen

Modelo generativo de texto a imagen basado en un Multimodal Diffusion Transformer (MMDiT), republicado sin la restricción de acceso gated. Está orientado a generar imágenes de alta calidad a partir de prompts, con mejoras en tipografía, comprensión de instrucciones complejas y eficiencia de recursos frente a iteraciones previas.

Como usar

Uso con Diffusers:
import torch
from diffusers import StableDiffusion3Pipeline

pipe = StableDiffusion3Pipeline.from_pretrained(
    "stabilityai/stable-diffusion-3.5-large",
    torch_dtype=torch.bfloat16
)
pipe = pipe.to("cuda")

image = pipe(
    "A capybara holding a sign that reads Hello World",
    num_inference_steps=28,
    guidance_scale=3.5,
).images[0]
image.save("capybara.png")

Cuantización con Diffusers para reducir VRAM:
from diffusers import BitsAndBytesConfig, SD3Transformer2DModel
from diffusers import StableDiffusion3Pipeline
import torch

model_id = "stabilityai/stable-diffusion-3.5-large"

nf4_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.bfloat16
)

model_nf4 = SD3Transformer2DModel.from_pretrained(
    model_id,
    subfolder="transformer",
    quantization_config=nf4_config,
    torch_dtype=torch.bfloat16
)

pipeline = StableDiffusion3Pipeline.from_pretrained(
    model_id,
    transformer=model_nf4,
    torch_dtype=torch.bfloat16
)
pipeline.enable_model_cpu_offload()

prompt = "A whimsical and creative image depicting a hybrid creature that is a mix of a waffle and a hippopotamus..."

image = pipeline(
    prompt=prompt,
    num_inference_steps=28,
    guidance_scale=4.5,
    max_sequence_length=512,
).images[0]
image.save("whimsical.png")

Funcionalidades

Generación de imágenes a partir de texto con la arquitectura Stable Diffusion 3.5 Large.
Republicación sin gated access, manteniendo el contenido del modelo original.
Mejora en calidad visual, renderizado de texto y seguimiento de prompts complejos.
Usa tres codificadores de texto preentrenados fijos: OpenCLIP-ViT/G, CLIP-ViT/L y T5-XXL.
Incorpora normalización QK para mejorar la estabilidad del entrenamiento.
Compatible con Diffusers, ComfyUI y flujos programáticos en GitHub.
Opción de cuantización a 4 bits con bitsandbytes para reducir el uso de VRAM.

Casos de uso

Generación de ilustraciones y arte conceptual a partir de descripciones textuales.
Procesos de diseño creativo donde importa la tipografía dentro de la imagen.
Herramientas educativas o creativas basadas en generación visual.
Investigación sobre modelos generativos y análisis de sus limitaciones.
Experimentación local o autoalojada con interfaces como ComfyUI o bibliotecas como Diffusers.