Animagine XL 3.0

cagliostrolab

Texto a imagen

Modelo generativo de texto a imagen orientado a ilustración anime, basado en Stable Diffusion XL y ajustado a partir de Animagine XL 2.0. Está diseñado para producir imágenes anime de alta calidad con mejoras claras en anatomía de manos, comprensión de conceptos de anime e interpretación de prompts estructurados.

Como usar

Instalación recomendada:
pip install diffusers --upgrade
pip install transformers accelerate safetensors

Ejemplo de uso con Diffusers:
import torch
from diffusers import (
    StableDiffusionXLPipeline,
    EulerAncestralDiscreteScheduler,
    AutoencoderKL
)

# Load VAE component
vae = AutoencoderKL.from_pretrained(
    "madebyollin/sdxl-vae-fp16-fix",
    torch_dtype=torch.float16
)

# Configure the pipeline
pipe = StableDiffusionXLPipeline.from_pretrained(
    "Linaqruf/animagine-xl-3.0",
    vae=vae,
    torch_dtype=torch.float16,
    use_safetensors=True,
)
pipe.scheduler = EulerAncestralDiscreteScheduler.from_config(pipe.scheduler.config)
pipe.to('cuda')

# Define prompts and generate image
prompt = "1girl, arima kana, oshi no ko, solo, upper body, v, smile, looking at viewer, outdoors, night"
negative_prompt = "nsfw, lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry, artist name"

image = pipe(
    prompt,
    negative_prompt=negative_prompt,
    width=832,
    height=1216,
    guidance_scale=7,
    num_inference_steps=28
).images[0]

Guía específica de prompting:

Plantilla recomendada: 1girl/1boy, nombre del personaje, serie de origen, resto de etiquetas en cualquier orden.
Para mejorar resultados, suele funcionar añadir masterpiece, best quality al prompt positivo.
Para reducir artefactos y contenido no deseado, usar un prompt negativo como: nsfw, lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry, artist name.
Ajustes recomendados: CFG de 5-7, menos de 30 pasos y sampler Euler a.
Etiquetas de año permiten orientar el estilo visual: newest, late, mid, early, oldest.
Resoluciones soportadas: 1024x1024, 1152x896, 896x1152, 1216x832, 832x1216, 1344x768, 768x1344, 1536x640, 640x1536.

Funcionalidades

Generación de imágenes anime a partir de prompts de texto
Mejora de anatomía de manos frente a versiones anteriores
Mejor comprensión de conceptos y personajes de anime
Optimizado para prompts con orden de etiquetas estructurado
Soporte para etiquetas especiales de calidad, clasificación y época visual
Compatible con Diffusers y uso con VAE externo
Soporta múltiples resoluciones y relaciones de aspecto
Ajustado para CFG bajo y muestreador Euler Ancestral

Casos de uso

Generación de ilustraciones anime de personajes y escenas a partir de texto
Creación de fanart con personajes y series conocidas
Producción de arte conceptual estilizado no fotorrealista
Prototipado visual para apps, juegos o novelas visuales con estética anime
Experimentación con prompts etiquetados para controlar calidad, rating y época estética