WIBE-HuggingFace/stable-diffusion-2-1-base
WIBE-HuggingFace
Texto a imagen
Modelo de difusión latente para generación y modificación de imágenes a partir de prompts de texto. Esta variante base de Stable Diffusion 2 usa un codificador de texto OpenCLIP-ViT/H preentrenado, fue entrenada sobre subconjuntos de LAION-5B filtrados por contenido pornográfico explícito y está orientada principalmente a investigación, generación artística, diseño y herramientas creativas o educativas.
Como usar
Instalación y uso con Diffusers para el repositorio WIBE-HuggingFace:
pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
"WIBE-HuggingFace/stable-diffusion-2-1-base",
dtype=torch.bfloat16,
device_map="cuda"
)
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
Ejemplo alternativo con Stable Diffusion 2 base y scheduler Euler:
pip install diffusers transformers accelerate scipy safetensors
from diffusers import StableDiffusionPipeline, EulerDiscreteScheduler
import torch
model_id = "stabilityai/stable-diffusion-2-base"
# Use the Euler scheduler here instead
scheduler = EulerDiscreteScheduler.from_pretrained(model_id, subfolder="scheduler")
pipe = StableDiffusionPipeline.from_pretrained(
model_id,
scheduler=scheduler,
torch_dtype=torch.float16
)
pipe = pipe.to("cuda")
prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt).images[0]
image.save("astronaut_rides_horse.png")
Para GPUs con poca VRAM, se recomienda activar pipe.enable_attention_slicing() después de mover el pipeline a CUDA; para mejor rendimiento, la tarjeta sugiere instalar xformers.
Funcionalidades
- Generación texto-a-imagen con Diffusers y StableDiffusionPipeline.
- Arquitectura de difusión latente con autoencoder y UNet condicionada por texto mediante cross-attention.
- Entrenamiento base a 256x256 durante 550k pasos y ajuste posterior a 512x512 durante 850k pasos.
- Soporte para pesos Safetensors y uso local con bibliotecas como Diffusers.
- Compatible con flujos de trabajo de Stable Diffusion v2-base y schedulers como EulerDiscreteScheduler.
- Filtrado del conjunto de entrenamiento con detector NSFW de LAION, aunque conserva riesgos de sesgo y contenido sensible.
Casos de uso
- Investigación sobre despliegue seguro de modelos capaces de generar contenido dañino.
- Análisis de limitaciones, sesgos y comportamiento de modelos generativos de imágenes.
- Generación de obras visuales, diseño y otros procesos artísticos.
- Herramientas educativas o creativas basadas en prompts de texto.
- Investigación sobre modelos de difusión y generación multimodal.