Charles-Elena/stable-diffusion-2-1

Charles-Elena

Texto a imagen

Modelo de difusión latente para generación y modificación de imágenes a partir de prompts de texto. Esta variante Stable Diffusion v2-1 fue ajustada desde Stable Diffusion 2 con pasos adicionales de entrenamiento y usa un codificador de texto OpenCLIP-ViT/H preentrenado. Está orientada principalmente a investigación y creación visual, con mejores resultados en prompts en inglés.

Como usar

Instalación y uso con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
    "Charles-Elena/stable-diffusion-2-1",
    dtype=torch.bfloat16,
    device_map="cuda"
)

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Ejemplo alternativo con StableDiffusionPipeline y DPM-Solver++:
pip install diffusers transformers accelerate scipy safetensors

import torch
from diffusers import StableDiffusionPipeline, DPMSolverMultistepScheduler

model_id = "stabilityai/stable-diffusion-2-1"

# Use the DPMSolverMultistepScheduler (DPM-Solver++) scheduler here instead
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
pipe = pipe.to("cuda")

prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt).images[0]
image.save("astronaut_rides_horse.png")

Se recomienda instalar xformers para atención eficiente en memoria. En GPUs con poca VRAM, puede añadirse pipe.enable_attention_slicing() después de mover el pipeline a CUDA, a costa de menor velocidad.

Funcionalidades

Generación de imágenes a partir de texto con arquitectura Latent Diffusion.
Basado en Stable Diffusion v2 y afinado con pasos adicionales sobre el mismo conjunto de datos.
Compatible con Diffusers y StableDiffusionPipeline.
Usa OpenCLIP-ViT/H como codificador de texto fijo.
Soporta ejecución local con GPU CUDA y variantes de scheduler como DPMSolverMultistepScheduler.
Licencia CreativeML Open RAIL++-M / openrail++.

Casos de uso

Investigación sobre despliegue seguro de modelos capaces de generar contenido dañino.
Análisis de limitaciones y sesgos en modelos generativos de imágenes.
Generación de arte, diseño visual y procesos creativos.
Herramientas educativas o creativas basadas en generación de imágenes.
Investigación en modelos generativos y difusión latente.