Modelo Estable de Cascada
Este modelo está construido sobre la arquitectura de Würstchen y su principal diferencia respecto a otros modelos como Stable Diffusion es que trabaja en un espacio latente mucho más pequeño. Cuánto más pequeño es el espacio latente, más rápido puedes ejecutar la inferencia y más barata se vuelve la capacitación. La compresión lograda permite codificar una imagen de 1024x1024 a 24x24, mientras se mantienen reconstrucciones nítidas. El modelo condicional de texto se entrena en el espacio latente altamente comprimido, logrando una reducción de costos de 16 veces en comparación con Stable Diffusion 1.5. Este modelo es adecuado para usos donde la eficiencia es importante y admite extensiones conocidas como afinación, LoRA, ControlNet, IP-Adapter, LCM, etc.
Como usar
import torch
from diffusers import StableCascadeDecoderPipeline, StableCascadePriorPipeline
prompt = "una imagen de un shiba inu, llevando un traje espacial y casco"
negative_prompt = ""
prior = StableCascadePriorPipeline.from_pretrained("stabilityai/stable-cascade-prior", variant="bf16", torch_dtype=torch.bfloat16)
decoder = StableCascadeDecoderPipeline.from_pretrained("stabilityai/stable-cascade", variant="bf16", torch_dtype=torch.float16)
prior.enable_model_cpu_offload()
prior_output = prior(
prompt=prompt,
height=1024,
width=1024,
negative_prompt=negative_prompt,
guidance_scale=4.0,
num_images_per_prompt=1,
num_inference_steps=20
)
decoder.enable_model_cpu_offload()
decoder_output = decoder(
image_embeddings=prior_output.image_embeddings.to(torch.float16),
prompt=prompt,
negative_prompt=negative_prompt,
guidance_scale=0.0,
output_type="pil",
num_inference_steps=10
).images[0]
decoder_output.save("cascade.png")
Funcionalidades
- Modelo de difusión generativo de texto a imagen
- Arquitectura de Würstchen con compresión de imágenes
- Espacio latente altamente comprimido
- Etiquetas: Afinación con 1.5 mil millones de parámetros, se recomienda la versión más grande de cada etapa
- Etapa A fija con 20 millones de parámetros debido a su pequeño tamaño
- Afinado para resultados detallados y precisos
- Ideal para usos de investigación, generación de contenido artístico y educativo
Casos de uso
- Investigación sobre modelos generativos
- Despliegue seguro de modelos con el potencial de generar contenido dañino
- Probar y comprender las limitaciones y sesgos de los modelos generativos
- Generación de obras de arte y uso en procesos de diseño y otras aplicaciones artísticas
- Herramientas educativas o creativas