Stable Diffusion v1-1

CompVis

Texto a imagen

Stable Diffusion es un modelo latente de difusión de texto a imagen capaz de generar imágenes fotorrealistas a partir de cualquier entrada de texto. Stable-Diffusion-v1-1 fue entrenado en 237,000 pasos a una resolución de 256x256 en laion2B-en, seguido por 194,000 pasos a una resolución de 512x512 en laion-high-resolution (170M ejemplos de LAION-5B con resolución de 1024x1024). Este modelo utiliza un codificador de texto preentrenado (CLIP ViT-L/14) y está diseñado para generar y modificar imágenes basadas en indicaciones de texto.

Como usar

Recomendamos usar la biblioteca Diffusers de 🤗 para ejecutar Stable Diffusion.
pip install --upgrade diffusers transformers scipy

import torch
from torch import autocast
from diffusers import StableDiffusionPipeline

model_id = 'CompVis/stable-diffusion-v1-1'
device = 'cuda'

pipe = StableDiffusionPipeline.from_pretrained(model_id)
pipe = pipe.to(device)

prompt = 'una foto de un astronauta montando un caballo en Marte'
with autocast('cuda'):
    image = pipe(prompt)['sample'][0]
    
image.save('astronauta_monta_caballo.png')

Nota: Si tienes menos de 10 GB de RAM GPU disponibles, carga la StableDiffusionPipeline en precisión float16:
import torch

pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe = pipe.to(device)

prompt = 'una foto de un astronauta montando un caballo en Marte'
with autocast('cuda'):
    image = pipe(prompt, guidance_scale=7.5)['sample'][0]
    
image.save('astronauta_monta_caballo.png')

Funcionalidades

Generación de imágenes fotorrealistas a partir de texto
Funciones de codificación latente
Compatible con la biblioteca D🧨iffusers
Apto para investigación en IA generativa
Uso de un codificador de texto fijo preentrenado (CLIP ViT-L/14)

Casos de uso

Despliegue seguro de modelos con potencial de generar contenido nocivo
Probar y entender las limitaciones y sesgos de los modelos generativos
Generación de obras de arte y uso en procesos de diseño y otros procesos artísticos
Aplicaciones en herramientas educativas o creativas
Investigación en modelos generativos