stabilityai/stable-diffusion-3.5-large-turbo
stabilityai
Texto a imagen
Modelo generativo de texto a imagen de Stability AI basado en un Multimodal Diffusion Transformer (MMDiT) destilado con Adversarial Diffusion Distillation (ADD). Está optimizado para generar imágenes de alta calidad con muy pocos pasos de inferencia, mejorando la tipografía en imagen, la comprensión de prompts complejos y la eficiencia de recursos.
Como usar
Uso con Diffusers:
import torch
from diffusers import StableDiffusion3Pipeline
pipe = StableDiffusion3Pipeline.from_pretrained(
"stabilityai/stable-diffusion-3.5-large-turbo",
torch_dtype=torch.bfloat16
)
pipe = pipe.to("cuda")
image = pipe(
"A capybara holding a sign that reads Hello Fast World",
num_inference_steps=4,
guidance_scale=0.0,
).images[0]
image.save("capybara.png")
Cuantización con Diffusers para reducir VRAM:
from diffusers import BitsAndBytesConfig, SD3Transformer2DModel
from diffusers import StableDiffusion3Pipeline
import torch
model_id = "stabilityai/stable-diffusion-3.5-large-turbo"
nf4_config = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_quant_type="nf4",
bnb_4bit_compute_dtype=torch.bfloat16
)
model_nf4 = SD3Transformer2DModel.from_pretrained(
model_id,
subfolder="transformer",
quantization_config=nf4_config,
torch_dtype=torch.bfloat16
)
t5_nf4 = T5EncoderModel.from_pretrained(
"diffusers/t5-nf4",
torch_dtype=torch.bfloat16
)
pipeline = StableDiffusion3Pipeline.from_pretrained(
model_id,
transformer=model_nf4,
text_encoder_3=t5_nf4,
torch_dtype=torch.bfloat16
)
pipeline.enable_model_cpu_offload()
prompt = "A whimsical and creative image depicting a hybrid creature that is a mix of a waffle and a hippopotamus..."
image = pipeline(
prompt=prompt,
num_inference_steps=4,
guidance_scale=0.0,
max_sequence_length=512,
).images[0]
image.save("whimsical.png")
Notas de uso:
- Requiere aceptar las condiciones de licencia para acceder al contenido del repositorio.
- La versión Turbo está pensada para mantener buena calidad con muy pocos pasos de inferencia.
- Para uso local o autoalojado, el propio card recomienda ComfyUI para interfaz nodal y Diffusers o GitHub para uso programático.
Funcionalidades
- Generación de imágenes a partir de prompts de texto
- Arquitectura MMDiT destilada con ADD para muestreo de alta calidad en 4 pasos
- Mejor rendimiento en calidad visual, tipografía y seguimiento de prompts complejos
- Usa tres codificadores de texto fijos preentrenados: OpenCLIP-ViT/G, CLIP-ViT/L y T5-xxl
- Incluye normalización QK para mejorar la estabilidad del entrenamiento
- Compatible con Diffusers, ComfyUI, GitHub y endpoints de inferencia externos
- Admite cuantización para reducir uso de VRAM en GPUs con memoria limitada
Casos de uso
- Creación de ilustraciones y arte generativo a partir de descripciones textuales
- Procesos de diseño creativo donde se necesiten iteraciones rápidas con 4 pasos de inferencia
- Herramientas educativas o creativas centradas en generación visual
- Investigación sobre modelos generativos, especialmente en adherencia al prompt y calidad estética
- Prototipado visual con restricciones de VRAM mediante cuantización