Animagine XL 4.0

cagliostrolab
Texto a imagen

Modelo generativo de texto a imagen basado en SDXL 1.0 y afinado específicamente para ilustración anime. Fue reentrenado con 8.401.464 imágenes de estilo anime y su variante Opt mejora la estabilidad, la anatomía, la reducción de ruido y la fidelidad del color frente a la versión inicial.

Como usar

Instala las dependencias y carga el modelo con StableDiffusionXLPipeline. El modelo funciona mejor con prompts estructurados por etiquetas en inglés, por ejemplo: sujeto, personaje, serie, clasificación, detalles y etiquetas de calidad al final.

pip install diffusers transformers accelerate safetensors --upgrade
import torch
from diffusers import StableDiffusionXLPipeline

pipe = StableDiffusionXLPipeline.from_pretrained(
    "cagliostrolab/animagine-xl-4.0",
    torch_dtype=torch.float16,
    use_safetensors=True,
    custom_pipeline="lpw_stable_diffusion_xl",
    add_watermarker=False
)
pipe.to('cuda')

prompt = "1girl, arima kana, oshi no ko, hoshimachi suisei, hoshimachi suisei \\(1st costume\\), cosplay, looking at viewer, smile, outdoors, night, v, masterpiece, high score, great score, absurdres"
negative_prompt = "lowres, bad anatomy, bad hands, text, error, missing finger, extra digits, fewer digits, cropped, worst quality, low quality, low score, bad score, average score, signature, watermark, username, blurry"

image = pipe(
    prompt,
    negative_prompt=negative_prompt,
    width=832,
    height=1216,
    guidance_scale=5,
    num_inference_steps=28
).images[0]

image.save("./arima_kana.png")

Buenas prácticas específicas del modelo:

  • Añadir al final del prompt: masterpiece, high score, great score, absurdres.
  • Usar negative prompt para evitar manos defectuosas, baja calidad y artefactos.
  • Preferir resoluciones recomendadas como 1024x1024, 832x1216 o 1216x832.
  • Evitar lenguaje natural libre; responde mejor a prompts tipo tags.

Funcionalidades

Genera y modifica imágenes con estética anime a partir de prompts basados en etiquetas.
Afinado desde Stable Diffusion XL 1.0 con resolución de entrenamiento de 1024x1024.
Versión Opt con mejoras concretas en consistencia visual, proporciones anatómicas, saturación y precisión de color.
Soporta etiquetas especiales para calidad, puntuación, temporalidad y clasificación de contenido.
Recomienda CFG 4-7, 25-28 pasos y sampler Euler Ancestral para mejores resultados.
Funciona en formato Safetensors y está disponible para Diffusers, ComfyUI y Stable Diffusion WebUI.

Casos de uso

Ilustraciones anime de personajes existentes o cosplay con alto nivel de detalle.
Generación de fanart estilizado con control fino mediante etiquetas de calidad y puntuación.
Creación de retratos verticales y composiciones cuadradas optimizadas para estética anime.
Experimentación con estilos por época usando etiquetas como `year 2007` o `year 2023`.
Flujos locales de generación en Diffusers, ComfyUI o Stable Diffusion WebUI orientados a arte anime.