Disty0/sotediffusion-wuerstchen3
Disty0
Texto a imagen
SoteDiffusion Wuerstchen3 es un ajuste fino de Würstchen V3 / Stable Cascade orientado a ilustraciones de anime. Fue entrenado con aproximadamente 6 millones de imágenes durante 3 épocas en 8 GPU NVIDIA A100 de 80 GB, con un refinamiento final sobre 120.000 imágenes de muy alta calidad duplicadas intencionalmente. Existe una versión más nueva: Disty0/sotediffusion-v2.
Como usar
Instalación y uso básico con Diffusers:
pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("Disty0/sotediffusion-wuerstchen3", dtype=torch.bfloat16, device_map="cuda")
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
Ejemplo recomendado con StableCascadeCombinedPipeline y el decoder:
pip install diffusers
import torch
from diffusers import StableCascadeCombinedPipeline
device = "cuda"
dtype = torch.bfloat16 # or torch.float16
model = "Disty0/sotediffusion-wuerstchen3-decoder"
pipe = StableCascadeCombinedPipeline.from_pretrained(model, torch_dtype=dtype)
# send everything to the gpu:
pipe = pipe.to(device, dtype=dtype)
pipe.prior_pipe = pipe.prior_pipe.to(device, dtype=dtype)
# or enable model offload to save vram:
# pipe.enable_model_cpu_offload()
prompt = "newest, extremely aesthetic, best quality, 1girl, solo, cat ears, pink hair, orange eyes, long hair, bare shoulders, looking at viewer, smile, indoors, casual, living room, playing guitar,"
negative_prompt = "very displeasing, worst quality, monochrome, realistic, oldest, loli,"
output = pipe(
width=1024,
height=1536,
prompt=prompt,
negative_prompt=negative_prompt,
decoder_guidance_scale=2.0,
prior_guidance_scale=7.0,
prior_num_inference_steps=30,
output_type="pil",
num_inference_steps=10
).images[0]
## do something with the output image
Parámetros sugeridos para SD.Next: sampler por defecto, 30 o 40 pasos, 10 pasos de refiner, CFG 7, CFG secundario 1 o 2, y prompt negativo con realistic cuando el modelo derive hacia imágenes realistas.
Funcionalidades
- Generación de imágenes de estilo anime a partir de texto.
- Basado en Stable Cascade / Würstchen V3 y compatible con pipelines de Diffusers.
- Soporta prompts con etiquetas de estética, calidad, fecha, personaje, serie y otros tags de datasets anime.
- Recomendado para resoluciones múltiplo de 128, por ejemplo 1024x1536 o 2048x1152.
- Entrenado con captions generados usando SmilingWolf/wd-swinv2-tagger-v3 y texto con llava-hf/llava-1.5-7b-hf.
- Incluye guía de uso para SD.Next, ComfyUI y API de Fal.AI.
- Licencia Fair AI Public License 1.0-SD, compatible con la licencia de modelos Stable Diffusion.
Casos de uso
- Crear ilustraciones anime desde prompts de texto.
- Generar personajes, escenas interiores, fondos y composiciones estilizadas tipo anime.
- Producir imágenes con control mediante etiquetas como `newest`, `extremely aesthetic`, `best quality` y etiquetas de personaje o serie.
- Usarlo en flujos locales con Diffusers, SD.Next, ComfyUI, Draw Things o DiffusionBee.
- Integrarlo mediante la API de Fal.AI para generación de imágenes basada en Stable Cascade / SoteDiffusion.