Sygil/Sygil-Diffusion
Sygil Diffusion es un fine-tune de Stable Diffusion 1.5 entrenado con el Imaginary Network Expanded Dataset. Está diseñado para generación de imágenes a partir de texto y destaca por usar namespaces o etiquetas con prefijo, como `species:seal` o `studio:dc`, para reducir errores de contexto y controlar mejor partes específicas de la imagen generada. El modelo también entiende parcialmente prompts en chino, japonés y español, además de inglés, y está orientado a producir retratos, arquitectura, reflejos, fantasía, arte conceptual, anime, paisajes y composiciones variadas sin quedar limitado a un único estilo especializado.
Como usar
Instalación básica con Diffusers:
pip install -U diffusers transformers accelerate
Uso con DiffusionPipeline:
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("Sygil/Sygil-Diffusion", dtype=torch.bfloat16, device_map="cuda")
prompt = "environment art, realistic"
image = pipe(prompt).images[0]
Ejemplo recomendado con StableDiffusionPipeline y DPMSolverMultistepScheduler:
pip install diffusers transformers accelerate scipy safetensors
import torch
from diffusers import StableDiffusionPipeline, DPMSolverMultistepScheduler
model_id = "Sygil/Sygil-Diffusion"
# Use the DPMSolverMultistepScheduler (DPM-Solver++) scheduler here instead
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
pipe = pipe.to("cuda")
prompt = "a beautiful illustration of a fantasy forest"
image = pipe(prompt).images[0]
image.save("fantasy_forest_illustration.png")
Para mejor rendimiento, el autor recomienda instalar xformers. En GPUs con poca VRAM, se puede activar pipe.enable_attention_slicing() después de mover el pipeline a CUDA, reduciendo memoria a cambio de velocidad.
Funcionalidades
- Fine-tune de Stable Diffusion 1.5 para generación texto-a-imagen.
- Uso de namespaces etiquetados para desambiguar conceptos y mejorar el control del prompt.
- Comprensión parcial de prompts en chino, japonés y español, además de inglés.
- Mejoras frente al modelo base en retratos, arquitectura, reflejos, fantasía, arte conceptual, anime y paisajes.
- Entrenado sobre el Imaginary Network Expanded Dataset.
- Checkpoints estables publicados desde v0.1 hasta v0.4, con v0.4 entrenado durante 2.370.200 pasos.
- Compatible con Diffusers y StableDiffusionPipeline.
- Licencia CreativeML Open RAIL++-M.
Casos de uso
- Generación de imágenes de fantasía, concept art y paisajes a partir de prompts textuales.
- Creación de retratos, arquitectura y escenas con reflejos donde el modelo base puede ser menos consistente.
- Generación de anime e ilustraciones con control semántico mediante namespaces.
- Prompts multilingües parciales en inglés, español, chino y japonés.
- Experimentos con prompts que requieren desambiguación explícita de entidades, especies, estudios, estilos o conceptos.