tonera/dreamshaperXL_v21TurboDPMSDE

tonera

Texto a imagen

Modelo de texto a imagen basado en Stable Diffusion XL DreamShaper XL v2.1 Turbo, empaquetado en Diffusers y con pesos UNet cuantizados mediante SVDQuant para inferencia eficiente con Nunchaku en GPU. Está orientado a generar imágenes SDXL reduciendo uso de VRAM y acelerando la inferencia con precisión FP4/INT4, manteniendo una calidad visual cercana al modelo original.

Como usar

Instalación y uso básico con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
    "tonera/dreamshaperXL_v21TurboDPMSDE",
    dtype=torch.bfloat16,
    device_map="cuda"
)

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Para usar la variante cuantizada con Nunchaku, primero instala una rueda compatible con tu versión de PyTorch, CUDA y Python:
pip install https://github.com/nunchaku-ai/nunchaku/releases/download/vX.Y.Z/nunchaku-X.Y.Z+torch2.9-cp311-cp311-linux_x86_64.whl

Ejemplo con Diffusers y Nunchaku UNet:
import torch
from diffusers import StableDiffusionXLPipeline
from nunchaku.models.unets.unet_sdxl import NunchakuSDXLUNet2DConditionModel
from nunchaku.utils import get_precision

MODEL = "dreamshaperXL_v21TurboDPMSDE"
REPO_ID = f"tonera/{MODEL}"

if __name__ == "__main__":
    unet = NunchakuSDXLUNet2DConditionModel.from_pretrained(
        f"{REPO_ID}/svdq-{get_precision()}_r32-{MODEL}.safetensors"
    )
    pipe = StableDiffusionXLPipeline.from_pretrained(
        f"{REPO_ID}",
        unet=unet,
        torch_dtype=torch.bfloat16,
        use_safetensors=True,
    ).to("cuda")

    prompt = "Make Pikachu hold a sign that says 'Nunchaku is awesome', yarn art style, detailed, vibrant colors"
    image = pipe(prompt=prompt, guidance_scale=5.0, num_inference_steps=30).images[0]
    image.save("sdxl.png")

Funcionalidades

Tarea principal: generación de imágenes a partir de texto.
Arquitectura de uso: StableDiffusionXLPipeline / DiffusionPipeline con pesos Safetensors.
Incluye pesos UNet cuantizados en formato SVDQuant para Nunchaku.
Optimizado para inferencia de baja precisión FP4/INT4 en GPUs compatibles.
Licencia Apache 2.0.
Métricas de calidad fp8 reportadas: PSNR medio 16.6145, SSIM medio 0.683617 y LPIPS medio 0.289557 sobre 25 muestras.
Rendimiento reportado frente a Diffusers: hasta 1.45x de aceleración en estado estable en RTX 3090 y 1.32x en RTX 5090.

Casos de uso

Generar imágenes SDXL de alta resolución a partir de prompts descriptivos.
Ejecutar DreamShaper XL con menor consumo de VRAM usando cuantización SVDQuant.
Acelerar flujos locales de generación de imágenes en GPUs NVIDIA compatibles.
Probar integración de Nunchaku con Diffusers para inferencia optimizada de modelos SDXL.
Crear imágenes artísticas, concept art, escenas detalladas y estilos visuales personalizados desde texto.