difusión-estable-2

stabilityai

Texto a imagen

Este es un modelo que se puede utilizar para generar y modificar imágenes basadas en indicaciones de texto. Es un Modelo de Difusión Latente que utiliza un codificador de texto preentrenado y fijo (OpenCLIP-ViT/H). El modelo stable-diffusion-2 retoma del stable-diffusion-2-base (512-base-ema.ckpt) y se entrena durante 150k pasos utilizando un objetivo v en el mismo conjunto de datos. Se retoma nuevamente durante otros 140k pasos en imágenes de 768x768.

Como usar

Usar con el repositorio stablediffusion: descarga el 768-v-ema.ckpt aquí.
Usar con 🧨 diffusers
Ejemplos
Usando la biblioteca Diffusers:
pip install diffusers transformers accelerate scipy safetensors

Ejecutando la canalización:
from diffusers import StableDiffusionPipeline, EulerDiscreteScheduler

model_id = "stabilityai/stable-diffusion-2"

scheduler = EulerDiscreteScheduler.from_pretrained(model_id, subfolder="scheduler")
pipe = StableDiffusionPipeline.from_pretrained(model_id, scheduler=scheduler, torch_dtype=torch.float16)
pipe = pipe.to("cuda")

prompt = "una foto de un astronauta montando un caballo en Marte"
image = pipe(prompt).images[0]

image.save("astronauta_monta_caballo.png")

Notas:
Aunque no sea una dependencia, recomendamos encarecidamente instalar xformers para una atención eficiente en memoria (mejor rendimiento).
Si tienes poca memoria GPU disponible, asegúrate de agregar pipe.enable_attention_slicing() después de enviarlo a cuda para usar menos VRAM (a costa de velocidad).

Funcionalidades

Resumido del stable-diffusion-2-base
Entrenado durante 150,000 pasos con un objetivo v en el mismo conjunto de datos
Entrenado otros 140,000 pasos en imágenes de 768x768
Modelo de generación de imágenes a partir de texto basado en la difusión
Utiliza un codificador de texto preentrenado OpenCLIP-ViT/H

Casos de uso

Despliegue seguro de modelos que tienen el potencial de generar contenido dañino.
Sondeo y comprensión de las limitaciones y sesgos de los modelos generativos.
Generación de obras de arte y uso en procesos de diseño y otros procesos artísticos.
Aplicaciones en herramientas educativas o creativas.
Investigación sobre modelos generativos.