Manojb/stable-diffusion-2-1-base

Manojb
Texto a imagen

Stable Diffusion v2-1-base es un modelo de difusión latente para generación y modificación de imágenes a partir de prompts de texto. Ajusta el checkpoint stable-diffusion-2-base de 512 px con 220.000 pasos adicionales sobre el mismo conjunto de datos, usando filtrado punsafe=0.98. Utiliza un codificador de texto OpenCLIP-ViT/H preentrenado y está pensado principalmente para investigación, creación artística, diseño y herramientas educativas o creativas.

Como usar

Instalación con Diffusers:

pip install diffusers transformers accelerate scipy safetensors

Ejemplo de ejecución con StableDiffusionPipeline y EulerDiscreteScheduler:

from diffusers import StableDiffusionPipeline, EulerDiscreteScheduler
import torch

model_id = "stabilityai/stable-diffusion-2-1-base"
scheduler = EulerDiscreteScheduler.from_pretrained(model_id, subfolder="scheduler")
pipe = StableDiffusionPipeline.from_pretrained(model_id, scheduler=scheduler, torch_dtype=torch.float16)
pipe = pipe.to("cuda")

prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt).images[0]
image.save("astronaut_rides_horse.png")

Notas de uso: se recomienda instalar xformers para atención más eficiente en memoria. En GPU con poca VRAM, puede añadirse pipe.enable_attention_slicing() después de mover el pipeline a CUDA, reduciendo memoria a costa de velocidad.

Funcionalidades

Generación texto-a-imagen basada en difusión latente.
Compatible con Diffusers y StableDiffusionPipeline.
Checkpoint base de 512 px ajustado desde Stable Diffusion 2.0 con 220.000 pasos adicionales.
Usa OpenCLIP-ViT/H como codificador de texto fijo y preentrenado.
Entrenado sobre LAION-5B y subconjuntos filtrados con detector NSFW de LAION.
Disponible en formato Safetensors y asociado a la licencia CreativeML Open RAIL++-M.
No está desplegado por proveedores de inferencia en la página indicada.
Presenta limitaciones conocidas: fotorealismo imperfecto, texto ilegible, composición difícil, generación deficiente de caras/personas y menor rendimiento con prompts no ingleses.

Casos de uso

Investigación sobre despliegue seguro de modelos capaces de generar contenido dañino.
Análisis de limitaciones y sesgos en modelos generativos de imágenes.
Generación de obras visuales y apoyo a procesos artísticos o de diseño.
Integración en herramientas educativas o creativas.
Investigación sobre modelos generativos y difusión latente.
No debe usarse para crear imágenes hostiles, ofensivas, discriminatorias, de suplantación, desinformación, violencia gráfica, contenido sexual no consentido o material protegido por derechos en violación de sus términos.