Playground v2.5 – 1024px Aesthetic Model

playgroundai

Texto a imagen

Este repositorio contiene un modelo que genera imágenes altamente estéticas de resolución 1024x1024, así como proporciones de aspecto de retrato y paisaje. Puede usar el modelo con Hugging Face 🧨 Diffusers. Playground v2.5 es un modelo generativo de texto a imagen basado en difusión, y un sucesor de Playground v2. Playground v2.5 es el modelo de código abierto más avanzado en calidad estética. Nuestros estudios de usuario demuestran que nuestro modelo supera a SDXL, Playground v2, PixArt-α, DALL-E 3 y Midjourney 5.2. Para detalles sobre el desarrollo y entrenamiento de nuestro modelo, consulte nuestra publicación en el blog y el informe técnico.

Como usar

Usando el modelo con 🧨 Diffusers
Instale diffusers >= 0.27.0 y las dependencias relevantes.
pip install diffusers>=0.27.0
pip install transformers accelerate safetensors

Notas:

El pipeline usa el programador EDMDPMSolverMultistepScheduler por defecto, para detalles finos más nítidos. Es una formulación EDM del programador DPM++ 2M Karras. guidance_scale=3.0 es un buen valor predeterminado para este programador.
El pipeline también soporta el programador EDMEulerScheduler. Es una formulación EDM del programador Euler. guidance_scale=5.0 es un buen valor predeterminado para este programador.

Entonces, ejecute el siguiente fragmento de código:
from diffusers import DiffusionPipeline
import torch

pipe = DiffusionPipeline.from_pretrained(
"playgroundai/playground-v2.5-1024px-aesthetic",
torch_dtype=torch.float16,
variant="fp16",
).to("cuda")

# # Opcional: Use DPM++ 2M Karras scheduler para detalles finos más nítidos
# from diffusers import EDMDPMSolverMultistepScheduler
# pipe.scheduler = EDMDPMSolverMultistepScheduler()

prompt = "Astronauta en una jungla, paleta de colores fríos, colores apagados, detallado, 8k"
image = pipe(prompt=prompt, num_inference_steps=50, guidance_scale=3).images[0]

Usando el modelo con Automatic1111/ComfyUI
Apoyo próximamente. Actualizaremos esta tarjeta de modelo con instrucciones cuando esté listo.

Funcionalidades

Modelo generativo de texto a imagen basado en difusión
Generación de imágenes de alta calidad estética
Soporte para resolución 1024x1024
Soporte para proporciones de aspecto de retrato y paisaje

Casos de uso

Generación de imágenes altamente estéticas
Aplicaciones que requieren imágenes de resolución 1024x1024
Proyectos que necesitan proporciones de aspecto de retrato y paisaje
Estudios de preferencia humana en imágenes relacionadas con personas