stabilityai/stable-diffusion-3.5-large
stabilityai
Texto a imagen
Stable Diffusion 3.5 Large es un modelo generativo de texto a imagen de Stability AI basado en Multimodal Diffusion Transformer (MMDiT). Genera imágenes a partir de prompts de texto y está orientado a mejorar la calidad visual, la tipografía, la comprensión de prompts complejos y la eficiencia de recursos. Usa tres codificadores de texto preentrenados fijos y QK-normalization para mejorar la estabilidad del entrenamiento.
Como usar
Instalación y ejecución básica con Diffusers:
pip install -U diffusers
import torch
from diffusers import StableDiffusion3Pipeline
pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3.5-large", torch_dtype=torch.bfloat16)
pipe = pipe.to("cuda")
image = pipe(
"A capybara holding a sign that reads Hello World",
num_inference_steps=28,
guidance_scale=3.5,
).images[0]
image.save("capybara.png")
Cuantización para reducir el uso de VRAM:
pip install bitsandbytes
from diffusers import BitsAndBytesConfig, SD3Transformer2DModel
from diffusers import StableDiffusion3Pipeline
import torch
model_id = "stabilityai/stable-diffusion-3.5-large"
nf4_config = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_quant_type="nf4",
bnb_4bit_compute_dtype=torch.bfloat16
)
model_nf4 = SD3Transformer2DModel.from_pretrained(
model_id,
subfolder="transformer",
quantization_config=nf4_config,
torch_dtype=torch.bfloat16
)
pipeline = StableDiffusion3Pipeline.from_pretrained(
model_id,
transformer=model_nf4,
torch_dtype=torch.bfloat16
)
pipeline.enable_model_cpu_offload()
prompt = "A whimsical and creative image depicting a hybrid creature that is a mix of a waffle and a hippopotamus, basking in a river of melted butter amidst a breakfast-themed landscape. It features the distinctive, bulky body shape of a hippo. However, instead of the usual grey skin, the creature's body resembles a golden-brown, crispy waffle fresh off the griddle. The skin is textured with the familiar grid pattern of a waffle, each square filled with a glistening sheen of syrup. The environment combines the natural habitat of a hippo with elements of a breakfast table setting, a river of warm, melted butter, with oversized utensils or plates peeking out from the lush, pancake-like foliage in the background, a towering pepper mill standing in for a tree. As the sun rises in this fantastical world, it casts a warm, buttery glow over the scene. The creature, content in its butter river, lets out a yawn. Nearby, a flock of birds take flight"
image = pipeline(
prompt=prompt,
num_inference_steps=28,
guidance_scale=4.5,
max_sequence_length=512,
).images[0]
image.save("whimsical.png")
Funcionalidades
- Modelo MMDiT generativo de texto a imagen.
- Mejoras específicas en calidad de imagen, tipografía y seguimiento de prompts complejos.
- Arquitectura con QK-normalization para aumentar la estabilidad durante el entrenamiento.
- Usa codificadores de texto OpenCLIP-ViT/G, CLIP-ViT/L y T5-xxl.
- Compatible con Diffusers mediante StableDiffusion3Pipeline.
- Incluye pesos en formato Safetensors y estructura preparada para integración con Diffusers.
- Admite cuantización con bitsandbytes para reducir el uso de VRAM en GPUs con menos memoria.
- Entrenado con una mezcla amplia de datos, incluidos datos sintéticos y datos públicos filtrados.
- Licencia Stability AI Community License: gratuita para investigación, uso no comercial y uso comercial si la organización o persona tiene menos de 1 millón de dólares de ingresos anuales totales.
Casos de uso
- Generación de obras de arte a partir de descripciones textuales.
- Procesos de diseño visual y exploración artística.
- Herramientas educativas o creativas que necesiten generación de imágenes.
- Investigación sobre modelos generativos y sus limitaciones.
- Inferencia local o autoalojada mediante ComfyUI, Diffusers o implementaciones programáticas.
- Despliegue mediante proveedores o APIs como Stability AI API, Replicate, Deepinfra o fal.