Sygil/Sygil-Diffusion

Sygil

Texto a imagen

Sygil Diffusion es un fine-tune de Stable Diffusion 1.5 entrenado con el Imaginary Network Expanded Dataset. Está diseñado para generación de imágenes a partir de texto y destaca por usar namespaces o etiquetas con prefijo, como `species:seal` o `studio:dc`, para reducir errores de contexto y controlar mejor partes específicas de la imagen generada. El modelo también entiende parcialmente prompts en chino, japonés y español, además de inglés, y está orientado a producir retratos, arquitectura, reflejos, fantasía, arte conceptual, anime, paisajes y composiciones variadas sin quedar limitado a un único estilo especializado.

Como usar

Instalación básica con Diffusers:
pip install -U diffusers transformers accelerate

Uso con DiffusionPipeline:
import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("Sygil/Sygil-Diffusion", dtype=torch.bfloat16, device_map="cuda")

prompt = "environment art, realistic"
image = pipe(prompt).images[0]

Ejemplo recomendado con StableDiffusionPipeline y DPMSolverMultistepScheduler:
pip install diffusers transformers accelerate scipy safetensors

import torch
from diffusers import StableDiffusionPipeline, DPMSolverMultistepScheduler

model_id = "Sygil/Sygil-Diffusion"

# Use the DPMSolverMultistepScheduler (DPM-Solver++) scheduler here instead
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
pipe = pipe.to("cuda")

prompt = "a beautiful illustration of a fantasy forest"
image = pipe(prompt).images[0]
image.save("fantasy_forest_illustration.png")

Para mejor rendimiento, el autor recomienda instalar xformers. En GPUs con poca VRAM, se puede activar pipe.enable_attention_slicing() después de mover el pipeline a CUDA, reduciendo memoria a cambio de velocidad.

Funcionalidades

Fine-tune de Stable Diffusion 1.5 para generación texto-a-imagen.
Uso de namespaces etiquetados para desambiguar conceptos y mejorar el control del prompt.
Comprensión parcial de prompts en chino, japonés y español, además de inglés.
Mejoras frente al modelo base en retratos, arquitectura, reflejos, fantasía, arte conceptual, anime y paisajes.
Entrenado sobre el Imaginary Network Expanded Dataset.
Checkpoints estables publicados desde v0.1 hasta v0.4, con v0.4 entrenado durante 2.370.200 pasos.
Compatible con Diffusers y StableDiffusionPipeline.
Licencia CreativeML Open RAIL++-M.

Casos de uso

Generación de imágenes de fantasía, concept art y paisajes a partir de prompts textuales.
Creación de retratos, arquitectura y escenas con reflejos donde el modelo base puede ser menos consistente.
Generación de anime e ilustraciones con control semántico mediante namespaces.
Prompts multilingües parciales en inglés, español, chino y japonés.
Experimentos con prompts que requieren desambiguación explícita de entidades, especies, estudios, estilos o conceptos.