Charles-Elena/stable-diffusion-2-1
Charles-Elena
Texto a imagen
Modelo de difusión latente para generación y modificación de imágenes a partir de prompts de texto. Esta variante Stable Diffusion v2-1 fue ajustada desde Stable Diffusion 2 con pasos adicionales de entrenamiento y usa un codificador de texto OpenCLIP-ViT/H preentrenado. Está orientada principalmente a investigación y creación visual, con mejores resultados en prompts en inglés.
Como usar
Instalación y uso con Diffusers:
pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
"Charles-Elena/stable-diffusion-2-1",
dtype=torch.bfloat16,
device_map="cuda"
)
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
Ejemplo alternativo con StableDiffusionPipeline y DPM-Solver++:
pip install diffusers transformers accelerate scipy safetensors
import torch
from diffusers import StableDiffusionPipeline, DPMSolverMultistepScheduler
model_id = "stabilityai/stable-diffusion-2-1"
# Use the DPMSolverMultistepScheduler (DPM-Solver++) scheduler here instead
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
pipe = pipe.to("cuda")
prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt).images[0]
image.save("astronaut_rides_horse.png")
Se recomienda instalar xformers para atención eficiente en memoria. En GPUs con poca VRAM, puede añadirse pipe.enable_attention_slicing() después de mover el pipeline a CUDA, a costa de menor velocidad.
Funcionalidades
- Generación de imágenes a partir de texto con arquitectura Latent Diffusion.
- Basado en Stable Diffusion v2 y afinado con pasos adicionales sobre el mismo conjunto de datos.
- Compatible con Diffusers y StableDiffusionPipeline.
- Usa OpenCLIP-ViT/H como codificador de texto fijo.
- Soporta ejecución local con GPU CUDA y variantes de scheduler como DPMSolverMultistepScheduler.
- Licencia CreativeML Open RAIL++-M / openrail++.
Casos de uso
- Investigación sobre despliegue seguro de modelos capaces de generar contenido dañino.
- Análisis de limitaciones y sesgos en modelos generativos de imágenes.
- Generación de arte, diseño visual y procesos creativos.
- Herramientas educativas o creativas basadas en generación de imágenes.
- Investigación en modelos generativos y difusión latente.