Manojb/stable-diffusion-2-base
Manojb
Texto a imagen
Stable Diffusion v2-base es un modelo de difusión latente para generación y modificación de imágenes a partir de prompts de texto. Fue entrenado desde cero primero durante 550.000 pasos a 256x256 y después durante 850.000 pasos a 512x512 sobre un subconjunto de LAION-5B filtrado para material pornográfico explícito con el clasificador LAION-NSFW, usando OpenCLIP-ViT/H como codificador de texto fijo.
Como usar
Instalación:
pip install diffusers transformers accelerate scipy safetensors
Ejemplo con Diffusers y EulerDiscreteScheduler:
from diffusers import StableDiffusionPipeline, EulerDiscreteScheduler
import torch
model_id = "stabilityai/stable-diffusion-2-base"
# Use the Euler scheduler here instead
scheduler = EulerDiscreteScheduler.from_pretrained(model_id, subfolder="scheduler")
pipe = StableDiffusionPipeline.from_pretrained(model_id, scheduler=scheduler, torch_dtype=torch.float16)
pipe = pipe.to("cuda")
prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt).images[0]
image.save("astronaut_rides_horse.png")
Notas: se recomienda instalar xformers para atención más eficiente en memoria. En GPU con poca VRAM, puede añadirse pipe.enable_attention_slicing() después de mover el pipeline a CUDA, reduciendo memoria a costa de velocidad.
Funcionalidades
- Generación de imágenes a partir de texto mediante StableDiffusionPipeline.
- Modelo de difusión latente con autoencoder y UNet condicionada por atención cruzada.
- Checkpoint base de 512x512 entrenado sobre LAION-5B filtrado por NSFW y puntuación estética.
- Compatible con Diffusers y pesos Safetensors.
- Licencia CreativeML Open RAIL++-M / openrail++.
Casos de uso
- Investigación sobre despliegue seguro de modelos capaces de generar contenido dañino.
- Estudio de limitaciones y sesgos en modelos generativos de imagen.
- Generación de obras visuales, diseño y procesos artísticos.
- Herramientas educativas o creativas basadas en prompts de texto.
- Investigación sobre modelos generativos y difusión latente.