huanzi05/stable-diffusion-2-1-base
huanzi05
Texto a imagen
Modelo de generación de imágenes a partir de texto basado en Stable Diffusion v2.1-base. Es un modelo de difusión latente que afina stable-diffusion-2-base con 220.000 pasos adicionales sobre el mismo conjunto de datos, usando un codificador de texto OpenCLIP-ViT/H fijo. Está pensado para generar y modificar imágenes desde prompts, especialmente en inglés, y se distribuye con licencia CreativeML Open RAIL++-M.
Como usar
Instalación y uso con Diffusers:
pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
"huanzi05/stable-diffusion-2-1-base",
dtype=torch.bfloat16,
device_map="cuda"
)
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
Ejemplo alternativo con scheduler Euler:
pip install diffusers transformers accelerate scipy safetensors
from diffusers import StableDiffusionPipeline, EulerDiscreteScheduler
import torch
model_id = "stabilityai/stable-diffusion-2-1-base"
scheduler = EulerDiscreteScheduler.from_pretrained(model_id, subfolder="scheduler")
pipe = StableDiffusionPipeline.from_pretrained(
model_id,
scheduler=scheduler,
torch_dtype=torch.float16
)
pipe = pipe.to("cuda")
prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt).images[0]
image.save("astronaut_rides_horse.png")
Se recomienda instalar xformers para atención más eficiente en memoria. En GPUs con poca VRAM, puede usarse pipe.enable_attention_slicing() después de mover el pipeline a CUDA, con menor consumo de memoria a cambio de velocidad.
Funcionalidades
- Generación de imágenes a partir de prompts de texto mediante Diffusers o el repositorio de Stable Diffusion.
- Arquitectura de difusión latente con autoencoder y UNet condicionada por texto mediante atención cruzada.
- Checkpoint base de 512 px afinado desde Stable Diffusion 2.0 con 220.000 pasos adicionales.
- Compatible con pipelines de Diffusers y pesos Safetensors.
- Entrenado principalmente con captions en inglés; el rendimiento baja con prompts en otros idiomas.
- Limitaciones conocidas: no logra fotorealismo perfecto, no renderiza texto legible de forma fiable y falla en composiciones espaciales complejas.
Casos de uso
- Investigación sobre modelos generativos de imagen y sus sesgos.
- Evaluación de despliegues seguros para modelos capaces de producir contenido dañino.
- Generación de arte, diseño visual y procesos creativos asistidos por IA.
- Herramientas educativas o creativas basadas en generación de imágenes.
- Análisis de limitaciones de modelos de difusión, incluyendo sesgos culturales, composición visual y rendimiento con prompts no ingleses.