SagiPolaczek/stable-diffusion-2-1-base

SagiPolaczek

Texto a imagen

Mirror en Hugging Face de Stable Diffusion v2-1-base, un modelo de difusión latente para generación y modificación de imágenes a partir de prompts de texto. Ajusta stable-diffusion-2-base con 220.000 pasos adicionales sobre el mismo conjunto de datos y usa un codificador de texto OpenCLIP-ViT/H fijo.

Como usar

Instalación y uso con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
    "SagiPolaczek/stable-diffusion-2-1-base",
    dtype=torch.bfloat16,
    device_map="cuda"
)

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Ejemplo alternativo con StableDiffusionPipeline y EulerDiscreteScheduler:
pip install diffusers transformers accelerate scipy safetensors

from diffusers import StableDiffusionPipeline, EulerDiscreteScheduler
import torch

model_id = "stabilityai/stable-diffusion-2-1-base"
scheduler = EulerDiscreteScheduler.from_pretrained(model_id, subfolder="scheduler")
pipe = StableDiffusionPipeline.from_pretrained(
    model_id,
    scheduler=scheduler,
    torch_dtype=torch.float16
)
pipe = pipe.to("cuda")

prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt).images[0]
image.save("astronaut_rides_horse.png")

Para reducir uso de VRAM se recomienda pipe.enable_attention_slicing(); para mejor rendimiento, instalar xformers.

Funcionalidades

Generación texto-a-imagen con arquitectura de difusión latente.
Compatible con Diffusers y StableDiffusionPipeline.
Checkpoint base de 512 px ajustado desde stable-diffusion-2-base.
Usa OpenCLIP-ViT/H como codificador de texto.
Distribuido en formato Safetensors y bajo licencia CreativeML Open RAIL++-M.
Entrenado principalmente con captions en inglés, por lo que funciona mejor con prompts en inglés.

Casos de uso

Investigación sobre despliegue seguro de modelos capaces de generar contenido dañino.
Análisis de limitaciones y sesgos en modelos generativos de imagen.
Generación de arte, diseño y procesos creativos asistidos por prompts.
Herramientas educativas o creativas basadas en generación de imágenes.
Investigación en modelos generativos y difusión latente.