adamo1139/stable-diffusion-3.5-large-ungated
adamo1139
Texto a imagen
Modelo generativo de texto a imagen basado en un Multimodal Diffusion Transformer (MMDiT), republicado sin la restricción de acceso gated. Está orientado a generar imágenes de alta calidad a partir de prompts, con mejoras en tipografía, comprensión de instrucciones complejas y eficiencia de recursos frente a iteraciones previas.
Como usar
Uso con Diffusers:
import torch
from diffusers import StableDiffusion3Pipeline
pipe = StableDiffusion3Pipeline.from_pretrained(
"stabilityai/stable-diffusion-3.5-large",
torch_dtype=torch.bfloat16
)
pipe = pipe.to("cuda")
image = pipe(
"A capybara holding a sign that reads Hello World",
num_inference_steps=28,
guidance_scale=3.5,
).images[0]
image.save("capybara.png")
Cuantización con Diffusers para reducir VRAM:
from diffusers import BitsAndBytesConfig, SD3Transformer2DModel
from diffusers import StableDiffusion3Pipeline
import torch
model_id = "stabilityai/stable-diffusion-3.5-large"
nf4_config = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_quant_type="nf4",
bnb_4bit_compute_dtype=torch.bfloat16
)
model_nf4 = SD3Transformer2DModel.from_pretrained(
model_id,
subfolder="transformer",
quantization_config=nf4_config,
torch_dtype=torch.bfloat16
)
pipeline = StableDiffusion3Pipeline.from_pretrained(
model_id,
transformer=model_nf4,
torch_dtype=torch.bfloat16
)
pipeline.enable_model_cpu_offload()
prompt = "A whimsical and creative image depicting a hybrid creature that is a mix of a waffle and a hippopotamus..."
image = pipeline(
prompt=prompt,
num_inference_steps=28,
guidance_scale=4.5,
max_sequence_length=512,
).images[0]
image.save("whimsical.png")
Funcionalidades
- Generación de imágenes a partir de texto con la arquitectura Stable Diffusion 3.5 Large.
- Republicación sin gated access, manteniendo el contenido del modelo original.
- Mejora en calidad visual, renderizado de texto y seguimiento de prompts complejos.
- Usa tres codificadores de texto preentrenados fijos: OpenCLIP-ViT/G, CLIP-ViT/L y T5-XXL.
- Incorpora normalización QK para mejorar la estabilidad del entrenamiento.
- Compatible con Diffusers, ComfyUI y flujos programáticos en GitHub.
- Opción de cuantización a 4 bits con bitsandbytes para reducir el uso de VRAM.
Casos de uso
- Generación de ilustraciones y arte conceptual a partir de descripciones textuales.
- Procesos de diseño creativo donde importa la tipografía dentro de la imagen.
- Herramientas educativas o creativas basadas en generación visual.
- Investigación sobre modelos generativos y análisis de sus limitaciones.
- Experimentación local o autoalojada con interfaces como ComfyUI o bibliotecas como Diffusers.