Disty0/sotediffusion-wuerstchen3

Disty0

Texto a imagen

SoteDiffusion Wuerstchen3 es un ajuste fino de Würstchen V3 / Stable Cascade orientado a ilustraciones de anime. Fue entrenado con aproximadamente 6 millones de imágenes durante 3 épocas en 8 GPU NVIDIA A100 de 80 GB, con un refinamiento final sobre 120.000 imágenes de muy alta calidad duplicadas intencionalmente. Existe una versión más nueva: Disty0/sotediffusion-v2.

Como usar

Instalación y uso básico con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("Disty0/sotediffusion-wuerstchen3", dtype=torch.bfloat16, device_map="cuda")

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Ejemplo recomendado con StableCascadeCombinedPipeline y el decoder:
pip install diffusers

import torch
from diffusers import StableCascadeCombinedPipeline

device = "cuda"
dtype = torch.bfloat16 # or torch.float16
model = "Disty0/sotediffusion-wuerstchen3-decoder"

pipe = StableCascadeCombinedPipeline.from_pretrained(model, torch_dtype=dtype)

# send everything to the gpu:
pipe = pipe.to(device, dtype=dtype)
pipe.prior_pipe = pipe.prior_pipe.to(device, dtype=dtype)

# or enable model offload to save vram:
# pipe.enable_model_cpu_offload()

prompt = "newest, extremely aesthetic, best quality, 1girl, solo, cat ears, pink hair, orange eyes, long hair, bare shoulders, looking at viewer, smile, indoors, casual, living room, playing guitar,"
negative_prompt = "very displeasing, worst quality, monochrome, realistic, oldest, loli,"

output = pipe(
    width=1024,
    height=1536,
    prompt=prompt,
    negative_prompt=negative_prompt,
    decoder_guidance_scale=2.0,
    prior_guidance_scale=7.0,
    prior_num_inference_steps=30,
    output_type="pil",
    num_inference_steps=10
).images[0]

## do something with the output image

Parámetros sugeridos para SD.Next: sampler por defecto, 30 o 40 pasos, 10 pasos de refiner, CFG 7, CFG secundario 1 o 2, y prompt negativo con realistic cuando el modelo derive hacia imágenes realistas.

Funcionalidades

Generación de imágenes de estilo anime a partir de texto.
Basado en Stable Cascade / Würstchen V3 y compatible con pipelines de Diffusers.
Soporta prompts con etiquetas de estética, calidad, fecha, personaje, serie y otros tags de datasets anime.
Recomendado para resoluciones múltiplo de 128, por ejemplo 1024x1536 o 2048x1152.
Entrenado con captions generados usando SmilingWolf/wd-swinv2-tagger-v3 y texto con llava-hf/llava-1.5-7b-hf.
Incluye guía de uso para SD.Next, ComfyUI y API de Fal.AI.
Licencia Fair AI Public License 1.0-SD, compatible con la licencia de modelos Stable Diffusion.

Casos de uso

Crear ilustraciones anime desde prompts de texto.
Generar personajes, escenas interiores, fondos y composiciones estilizadas tipo anime.
Producir imágenes con control mediante etiquetas como `newest`, `extremely aesthetic`, `best quality` y etiquetas de personaje o serie.
Usarlo en flujos locales con Diffusers, SD.Next, ComfyUI, Draw Things o DiffusionBee.
Integrarlo mediante la API de Fal.AI para generación de imágenes basada en Stable Cascade / SoteDiffusion.