huanzi05/stable-diffusion-2-1-base

huanzi05

Texto a imagen

Modelo de generación de imágenes a partir de texto basado en Stable Diffusion v2.1-base. Es un modelo de difusión latente que afina stable-diffusion-2-base con 220.000 pasos adicionales sobre el mismo conjunto de datos, usando un codificador de texto OpenCLIP-ViT/H fijo. Está pensado para generar y modificar imágenes desde prompts, especialmente en inglés, y se distribuye con licencia CreativeML Open RAIL++-M.

Como usar

Instalación y uso con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
    "huanzi05/stable-diffusion-2-1-base",
    dtype=torch.bfloat16,
    device_map="cuda"
)

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Ejemplo alternativo con scheduler Euler:
pip install diffusers transformers accelerate scipy safetensors

from diffusers import StableDiffusionPipeline, EulerDiscreteScheduler
import torch

model_id = "stabilityai/stable-diffusion-2-1-base"
scheduler = EulerDiscreteScheduler.from_pretrained(model_id, subfolder="scheduler")
pipe = StableDiffusionPipeline.from_pretrained(
    model_id,
    scheduler=scheduler,
    torch_dtype=torch.float16
)
pipe = pipe.to("cuda")

prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt).images[0]
image.save("astronaut_rides_horse.png")

Se recomienda instalar xformers para atención más eficiente en memoria. En GPUs con poca VRAM, puede usarse pipe.enable_attention_slicing() después de mover el pipeline a CUDA, con menor consumo de memoria a cambio de velocidad.

Funcionalidades

Generación de imágenes a partir de prompts de texto mediante Diffusers o el repositorio de Stable Diffusion.
Arquitectura de difusión latente con autoencoder y UNet condicionada por texto mediante atención cruzada.
Checkpoint base de 512 px afinado desde Stable Diffusion 2.0 con 220.000 pasos adicionales.
Compatible con pipelines de Diffusers y pesos Safetensors.
Entrenado principalmente con captions en inglés; el rendimiento baja con prompts en otros idiomas.
Limitaciones conocidas: no logra fotorealismo perfecto, no renderiza texto legible de forma fiable y falla en composiciones espaciales complejas.

Casos de uso

Investigación sobre modelos generativos de imagen y sus sesgos.
Evaluación de despliegues seguros para modelos capaces de producir contenido dañino.
Generación de arte, diseño visual y procesos creativos asistidos por IA.
Herramientas educativas o creativas basadas en generación de imágenes.
Análisis de limitaciones de modelos de difusión, incluyendo sesgos culturales, composición visual y rendimiento con prompts no ingleses.