stabilityai/stable-diffusion-3.5-large-turbo

stabilityai
Texto a imagen

Modelo generativo de texto a imagen de Stability AI basado en un Multimodal Diffusion Transformer (MMDiT) destilado con Adversarial Diffusion Distillation (ADD). Está optimizado para generar imágenes de alta calidad con muy pocos pasos de inferencia, mejorando la tipografía en imagen, la comprensión de prompts complejos y la eficiencia de recursos.

Como usar

Uso con Diffusers:

import torch
from diffusers import StableDiffusion3Pipeline

pipe = StableDiffusion3Pipeline.from_pretrained(
    "stabilityai/stable-diffusion-3.5-large-turbo",
    torch_dtype=torch.bfloat16
)
pipe = pipe.to("cuda")

image = pipe(
    "A capybara holding a sign that reads Hello Fast World",
    num_inference_steps=4,
    guidance_scale=0.0,
).images[0]
image.save("capybara.png")

Cuantización con Diffusers para reducir VRAM:

from diffusers import BitsAndBytesConfig, SD3Transformer2DModel
from diffusers import StableDiffusion3Pipeline
import torch

model_id = "stabilityai/stable-diffusion-3.5-large-turbo"

nf4_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.bfloat16
)

model_nf4 = SD3Transformer2DModel.from_pretrained(
    model_id,
    subfolder="transformer",
    quantization_config=nf4_config,
    torch_dtype=torch.bfloat16
)

t5_nf4 = T5EncoderModel.from_pretrained(
    "diffusers/t5-nf4",
    torch_dtype=torch.bfloat16
)

pipeline = StableDiffusion3Pipeline.from_pretrained(
    model_id,
    transformer=model_nf4,
    text_encoder_3=t5_nf4,
    torch_dtype=torch.bfloat16
)
pipeline.enable_model_cpu_offload()

prompt = "A whimsical and creative image depicting a hybrid creature that is a mix of a waffle and a hippopotamus..."
image = pipeline(
    prompt=prompt,
    num_inference_steps=4,
    guidance_scale=0.0,
    max_sequence_length=512,
).images[0]
image.save("whimsical.png")

Notas de uso:

  • Requiere aceptar las condiciones de licencia para acceder al contenido del repositorio.
  • La versión Turbo está pensada para mantener buena calidad con muy pocos pasos de inferencia.
  • Para uso local o autoalojado, el propio card recomienda ComfyUI para interfaz nodal y Diffusers o GitHub para uso programático.

Funcionalidades

Generación de imágenes a partir de prompts de texto
Arquitectura MMDiT destilada con ADD para muestreo de alta calidad en 4 pasos
Mejor rendimiento en calidad visual, tipografía y seguimiento de prompts complejos
Usa tres codificadores de texto fijos preentrenados: OpenCLIP-ViT/G, CLIP-ViT/L y T5-xxl
Incluye normalización QK para mejorar la estabilidad del entrenamiento
Compatible con Diffusers, ComfyUI, GitHub y endpoints de inferencia externos
Admite cuantización para reducir uso de VRAM en GPUs con memoria limitada

Casos de uso

Creación de ilustraciones y arte generativo a partir de descripciones textuales
Procesos de diseño creativo donde se necesiten iteraciones rápidas con 4 pasos de inferencia
Herramientas educativas o creativas centradas en generación visual
Investigación sobre modelos generativos, especialmente en adherencia al prompt y calidad estética
Prototipado visual con restricciones de VRAM mediante cuantización