Stable Diffusion v1-1
CompVis
Texto a imagen
Stable Diffusion es un modelo latente de difusión de texto a imagen capaz de generar imágenes fotorrealistas a partir de cualquier entrada de texto. Stable-Diffusion-v1-1 fue entrenado en 237,000 pasos a una resolución de 256x256 en laion2B-en, seguido por 194,000 pasos a una resolución de 512x512 en laion-high-resolution (170M ejemplos de LAION-5B con resolución de 1024x1024). Este modelo utiliza un codificador de texto preentrenado (CLIP ViT-L/14) y está diseñado para generar y modificar imágenes basadas en indicaciones de texto.
Como usar
Recomendamos usar la biblioteca Diffusers de 🤗 para ejecutar Stable Diffusion.
pip install --upgrade diffusers transformers scipy
import torch
from torch import autocast
from diffusers import StableDiffusionPipeline
model_id = 'CompVis/stable-diffusion-v1-1'
device = 'cuda'
pipe = StableDiffusionPipeline.from_pretrained(model_id)
pipe = pipe.to(device)
prompt = 'una foto de un astronauta montando un caballo en Marte'
with autocast('cuda'):
image = pipe(prompt)['sample'][0]
image.save('astronauta_monta_caballo.png')
Nota: Si tienes menos de 10 GB de RAM GPU disponibles, carga la StableDiffusionPipeline en precisión float16:
import torch
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe = pipe.to(device)
prompt = 'una foto de un astronauta montando un caballo en Marte'
with autocast('cuda'):
image = pipe(prompt, guidance_scale=7.5)['sample'][0]
image.save('astronauta_monta_caballo.png')
Funcionalidades
- Generación de imágenes fotorrealistas a partir de texto
- Funciones de codificación latente
- Compatible con la biblioteca D🧨iffusers
- Apto para investigación en IA generativa
- Uso de un codificador de texto fijo preentrenado (CLIP ViT-L/14)
Casos de uso
- Despliegue seguro de modelos con potencial de generar contenido nocivo
- Probar y entender las limitaciones y sesgos de los modelos generativos
- Generación de obras de arte y uso en procesos de diseño y otros procesos artísticos
- Aplicaciones en herramientas educativas o creativas
- Investigación en modelos generativos