SagiPolaczek/stable-diffusion-2-1-base
SagiPolaczek
Texto a imagen
Mirror en Hugging Face de Stable Diffusion v2-1-base, un modelo de difusión latente para generación y modificación de imágenes a partir de prompts de texto. Ajusta stable-diffusion-2-base con 220.000 pasos adicionales sobre el mismo conjunto de datos y usa un codificador de texto OpenCLIP-ViT/H fijo.
Como usar
Instalación y uso con Diffusers:
pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
"SagiPolaczek/stable-diffusion-2-1-base",
dtype=torch.bfloat16,
device_map="cuda"
)
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
Ejemplo alternativo con StableDiffusionPipeline y EulerDiscreteScheduler:
pip install diffusers transformers accelerate scipy safetensors
from diffusers import StableDiffusionPipeline, EulerDiscreteScheduler
import torch
model_id = "stabilityai/stable-diffusion-2-1-base"
scheduler = EulerDiscreteScheduler.from_pretrained(model_id, subfolder="scheduler")
pipe = StableDiffusionPipeline.from_pretrained(
model_id,
scheduler=scheduler,
torch_dtype=torch.float16
)
pipe = pipe.to("cuda")
prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt).images[0]
image.save("astronaut_rides_horse.png")
Para reducir uso de VRAM se recomienda pipe.enable_attention_slicing(); para mejor rendimiento, instalar xformers.
Funcionalidades
- Generación texto-a-imagen con arquitectura de difusión latente.
- Compatible con Diffusers y StableDiffusionPipeline.
- Checkpoint base de 512 px ajustado desde stable-diffusion-2-base.
- Usa OpenCLIP-ViT/H como codificador de texto.
- Distribuido en formato Safetensors y bajo licencia CreativeML Open RAIL++-M.
- Entrenado principalmente con captions en inglés, por lo que funciona mejor con prompts en inglés.
Casos de uso
- Investigación sobre despliegue seguro de modelos capaces de generar contenido dañino.
- Análisis de limitaciones y sesgos en modelos generativos de imagen.
- Generación de arte, diseño y procesos creativos asistidos por prompts.
- Herramientas educativas o creativas basadas en generación de imágenes.
- Investigación en modelos generativos y difusión latente.