Modelo Estable de Cascada

stabilityai
Texto a imagen

Este modelo está construido sobre la arquitectura de Würstchen y su principal diferencia respecto a otros modelos como Stable Diffusion es que trabaja en un espacio latente mucho más pequeño. Cuánto más pequeño es el espacio latente, más rápido puedes ejecutar la inferencia y más barata se vuelve la capacitación. La compresión lograda permite codificar una imagen de 1024x1024 a 24x24, mientras se mantienen reconstrucciones nítidas. El modelo condicional de texto se entrena en el espacio latente altamente comprimido, logrando una reducción de costos de 16 veces en comparación con Stable Diffusion 1.5. Este modelo es adecuado para usos donde la eficiencia es importante y admite extensiones conocidas como afinación, LoRA, ControlNet, IP-Adapter, LCM, etc.

Como usar

import torch
from diffusers import StableCascadeDecoderPipeline, StableCascadePriorPipeline

prompt = "una imagen de un shiba inu, llevando un traje espacial y casco"
negative_prompt = ""

prior = StableCascadePriorPipeline.from_pretrained("stabilityai/stable-cascade-prior", variant="bf16", torch_dtype=torch.bfloat16)
decoder = StableCascadeDecoderPipeline.from_pretrained("stabilityai/stable-cascade", variant="bf16", torch_dtype=torch.float16)

prior.enable_model_cpu_offload()
prior_output = prior(
prompt=prompt,
height=1024,
width=1024,
negative_prompt=negative_prompt,
guidance_scale=4.0,
num_images_per_prompt=1,
num_inference_steps=20
)

decoder.enable_model_cpu_offload()
decoder_output = decoder(
image_embeddings=prior_output.image_embeddings.to(torch.float16),
prompt=prompt,
negative_prompt=negative_prompt,
guidance_scale=0.0,
output_type="pil",
num_inference_steps=10
).images[0]
decoder_output.save("cascade.png")

Funcionalidades

Modelo de difusión generativo de texto a imagen
Arquitectura de Würstchen con compresión de imágenes
Espacio latente altamente comprimido
Etiquetas: Afinación con 1.5 mil millones de parámetros, se recomienda la versión más grande de cada etapa
Etapa A fija con 20 millones de parámetros debido a su pequeño tamaño
Afinado para resultados detallados y precisos
Ideal para usos de investigación, generación de contenido artístico y educativo

Casos de uso

Investigación sobre modelos generativos
Despliegue seguro de modelos con el potencial de generar contenido dañino
Probar y comprender las limitaciones y sesgos de los modelos generativos
Generación de obras de arte y uso en procesos de diseño y otras aplicaciones artísticas
Herramientas educativas o creativas