Animagine XL 3.0
cagliostrolab
Texto a imagen
Modelo generativo de texto a imagen orientado a ilustración anime, basado en Stable Diffusion XL y ajustado a partir de Animagine XL 2.0. Está diseñado para producir imágenes anime de alta calidad con mejoras claras en anatomía de manos, comprensión de conceptos de anime e interpretación de prompts estructurados.
Como usar
Instalación recomendada:
pip install diffusers --upgrade
pip install transformers accelerate safetensors
Ejemplo de uso con Diffusers:
import torch
from diffusers import (
StableDiffusionXLPipeline,
EulerAncestralDiscreteScheduler,
AutoencoderKL
)
# Load VAE component
vae = AutoencoderKL.from_pretrained(
"madebyollin/sdxl-vae-fp16-fix",
torch_dtype=torch.float16
)
# Configure the pipeline
pipe = StableDiffusionXLPipeline.from_pretrained(
"Linaqruf/animagine-xl-3.0",
vae=vae,
torch_dtype=torch.float16,
use_safetensors=True,
)
pipe.scheduler = EulerAncestralDiscreteScheduler.from_config(pipe.scheduler.config)
pipe.to('cuda')
# Define prompts and generate image
prompt = "1girl, arima kana, oshi no ko, solo, upper body, v, smile, looking at viewer, outdoors, night"
negative_prompt = "nsfw, lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry, artist name"
image = pipe(
prompt,
negative_prompt=negative_prompt,
width=832,
height=1216,
guidance_scale=7,
num_inference_steps=28
).images[0]
Guía específica de prompting:
- Plantilla recomendada:
1girl/1boy, nombre del personaje, serie de origen, resto de etiquetas en cualquier orden.
- Para mejorar resultados, suele funcionar añadir
masterpiece, best quality al prompt positivo.
- Para reducir artefactos y contenido no deseado, usar un prompt negativo como:
nsfw, lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry, artist name.
- Ajustes recomendados: CFG de
5-7, menos de 30 pasos y sampler Euler a.
- Etiquetas de año permiten orientar el estilo visual:
newest, late, mid, early, oldest.
- Resoluciones soportadas:
1024x1024, 1152x896, 896x1152, 1216x832, 832x1216, 1344x768, 768x1344, 1536x640, 640x1536.
Funcionalidades
- Generación de imágenes anime a partir de prompts de texto
- Mejora de anatomía de manos frente a versiones anteriores
- Mejor comprensión de conceptos y personajes de anime
- Optimizado para prompts con orden de etiquetas estructurado
- Soporte para etiquetas especiales de calidad, clasificación y época visual
- Compatible con Diffusers y uso con VAE externo
- Soporta múltiples resoluciones y relaciones de aspecto
- Ajustado para CFG bajo y muestreador Euler Ancestral
Casos de uso
- Generación de ilustraciones anime de personajes y escenas a partir de texto
- Creación de fanart con personajes y series conocidas
- Producción de arte conceptual estilizado no fotorrealista
- Prototipado visual para apps, juegos o novelas visuales con estética anime
- Experimentación con prompts etiquetados para controlar calidad, rating y época estética