stablediffusionapi/Pony-Diffusion-V6-XL

stablediffusionapi

Texto a imagen

Modelo de texto a imagen basado en Stable Diffusion XL, publicado por Stable Diffusion API en Hugging Face. Está pensado para generar imágenes a partir de prompts detallados y se usa mediante Diffusers o la API de ModelsLab con el identificador `Pony-Diffusion-V6-XL`.

Como usar

Instalación y uso con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("stablediffusionapi/Pony-Diffusion-V6-XL", dtype=torch.bfloat16, device_map="cuda")

prompt = "a girl wandering through the forest"
image = pipe(prompt).images[0]

Uso vía API de ModelsLab:
import requests
import json

url = "https://modelslab.com/api/v6/images/text2img"

payload = json.dumps({
  "key": "your_api_key",
  "model_id": "Pony-Diffusion-V6-XL",
  "prompt": "ultra realistic close up portrait ((beautiful pale cyberpunk female with heavy black eyeliner)), blue eyes, shaved side haircut, hyper detail, cinematic lighting, magic neon, dark red city, Canon EOS R3, nikon, f/1.4, ISO 200, 1/160s, 8K, RAW, unedited, symmetrical balance, in-frame, 8K",
  "negative_prompt": "painting, extra fingers, mutated hands, poorly drawn hands, poorly drawn face, deformed, ugly, blurry, bad anatomy, bad proportions, extra limbs, cloned face, skinny, glitchy, double torso, extra arms, extra hands, mangled fingers, missing lips, ugly face, distorted face, extra legs, anime",
  "width": "512",
  "height": "512",
  "samples": "1",
  "num_inference_steps": "30",
  "safety_checker": "no",
  "enhance_prompt": "yes",
  "seed": None,
  "guidance_scale": 7.5,
  "multi_lingual": "no",
  "panorama": "no",
  "self_attention": "no",
  "upscale": "no",
  "embeddings": "",
  "lora": "",
  "webhook": None,
  "track_id": None
})

headers = {
  'Content-Type': 'application/json'
}

response = requests.request("POST", url, headers=headers, data=payload)

print(response.text)

Funcionalidades

Generación de imágenes desde texto con una canalización compatible con Stable Diffusion XL.
Compatible con la librería Diffusers mediante `DiffusionPipeline`.
Disponible para uso por API a través del endpoint de ModelsLab `text2img`.
Permite configurar parámetros como prompt negativo, tamaño de imagen, número de pasos de inferencia, escala de guía, semilla, safety checker y opciones de mejora de prompt.
Licencia indicada en la página: `creativeml-openrail-m`.

Casos de uso

Crear imágenes desde prompts descriptivos usando una canalización SDXL.
Generar retratos estilizados o ultra realistas con control mediante prompt negativo.
Integrar generación de imágenes en aplicaciones mediante la API de ModelsLab.
Probar el modelo localmente o en notebooks como Google Colab y Kaggle.