Playground v2.5 – 1024px Aesthetic Model
Este repositorio contiene un modelo que genera imágenes altamente estéticas de resolución 1024x1024, así como proporciones de aspecto de retrato y paisaje. Puede usar el modelo con Hugging Face 🧨 Diffusers. Playground v2.5 es un modelo generativo de texto a imagen basado en difusión, y un sucesor de Playground v2. Playground v2.5 es el modelo de código abierto más avanzado en calidad estética. Nuestros estudios de usuario demuestran que nuestro modelo supera a SDXL, Playground v2, PixArt-α, DALL-E 3 y Midjourney 5.2. Para detalles sobre el desarrollo y entrenamiento de nuestro modelo, consulte nuestra publicación en el blog y el informe técnico.
Como usar
Usando el modelo con 🧨 Diffusers
Instale diffusers >= 0.27.0 y las dependencias relevantes.
pip install diffusers>=0.27.0
pip install transformers accelerate safetensors
Notas:
- El pipeline usa el programador EDMDPMSolverMultistepScheduler por defecto, para detalles finos más nítidos. Es una formulación EDM del programador DPM++ 2M Karras. guidance_scale=3.0 es un buen valor predeterminado para este programador.
- El pipeline también soporta el programador EDMEulerScheduler. Es una formulación EDM del programador Euler. guidance_scale=5.0 es un buen valor predeterminado para este programador.
Entonces, ejecute el siguiente fragmento de código:
from diffusers import DiffusionPipeline
import torch
pipe = DiffusionPipeline.from_pretrained(
"playgroundai/playground-v2.5-1024px-aesthetic",
torch_dtype=torch.float16,
variant="fp16",
).to("cuda")
# # Opcional: Use DPM++ 2M Karras scheduler para detalles finos más nítidos
# from diffusers import EDMDPMSolverMultistepScheduler
# pipe.scheduler = EDMDPMSolverMultistepScheduler()
prompt = "Astronauta en una jungla, paleta de colores fríos, colores apagados, detallado, 8k"
image = pipe(prompt=prompt, num_inference_steps=50, guidance_scale=3).images[0]
Usando el modelo con Automatic1111/ComfyUI
Apoyo próximamente. Actualizaremos esta tarjeta de modelo con instrucciones cuando esté listo.
Funcionalidades
- Modelo generativo de texto a imagen basado en difusión
- Generación de imágenes de alta calidad estética
- Soporte para resolución 1024x1024
- Soporte para proporciones de aspecto de retrato y paisaje
Casos de uso
- Generación de imágenes altamente estéticas
- Aplicaciones que requieren imágenes de resolución 1024x1024
- Proyectos que necesitan proporciones de aspecto de retrato y paisaje
- Estudios de preferencia humana en imágenes relacionadas con personas