Animagine XL 4.0
cagliostrolab
Texto a imagen
Modelo generativo de texto a imagen basado en SDXL 1.0 y afinado específicamente para ilustración anime. Fue reentrenado con 8.401.464 imágenes de estilo anime y su variante Opt mejora la estabilidad, la anatomía, la reducción de ruido y la fidelidad del color frente a la versión inicial.
Como usar
Instala las dependencias y carga el modelo con StableDiffusionXLPipeline. El modelo funciona mejor con prompts estructurados por etiquetas en inglés, por ejemplo: sujeto, personaje, serie, clasificación, detalles y etiquetas de calidad al final.
pip install diffusers transformers accelerate safetensors --upgrade
import torch
from diffusers import StableDiffusionXLPipeline
pipe = StableDiffusionXLPipeline.from_pretrained(
"cagliostrolab/animagine-xl-4.0",
torch_dtype=torch.float16,
use_safetensors=True,
custom_pipeline="lpw_stable_diffusion_xl",
add_watermarker=False
)
pipe.to('cuda')
prompt = "1girl, arima kana, oshi no ko, hoshimachi suisei, hoshimachi suisei \\(1st costume\\), cosplay, looking at viewer, smile, outdoors, night, v, masterpiece, high score, great score, absurdres"
negative_prompt = "lowres, bad anatomy, bad hands, text, error, missing finger, extra digits, fewer digits, cropped, worst quality, low quality, low score, bad score, average score, signature, watermark, username, blurry"
image = pipe(
prompt,
negative_prompt=negative_prompt,
width=832,
height=1216,
guidance_scale=5,
num_inference_steps=28
).images[0]
image.save("./arima_kana.png")
Buenas prácticas específicas del modelo:
- Añadir al final del prompt:
masterpiece, high score, great score, absurdres.
- Usar negative prompt para evitar manos defectuosas, baja calidad y artefactos.
- Preferir resoluciones recomendadas como
1024x1024, 832x1216 o 1216x832.
- Evitar lenguaje natural libre; responde mejor a prompts tipo tags.
Funcionalidades
- Genera y modifica imágenes con estética anime a partir de prompts basados en etiquetas.
- Afinado desde Stable Diffusion XL 1.0 con resolución de entrenamiento de 1024x1024.
- Versión Opt con mejoras concretas en consistencia visual, proporciones anatómicas, saturación y precisión de color.
- Soporta etiquetas especiales para calidad, puntuación, temporalidad y clasificación de contenido.
- Recomienda CFG 4-7, 25-28 pasos y sampler Euler Ancestral para mejores resultados.
- Funciona en formato Safetensors y está disponible para Diffusers, ComfyUI y Stable Diffusion WebUI.
Casos de uso
- Ilustraciones anime de personajes existentes o cosplay con alto nivel de detalle.
- Generación de fanart estilizado con control fino mediante etiquetas de calidad y puntuación.
- Creación de retratos verticales y composiciones cuadradas optimizadas para estética anime.
- Experimentación con estilos por época usando etiquetas como `year 2007` o `year 2023`.
- Flujos locales de generación en Diffusers, ComfyUI o Stable Diffusion WebUI orientados a arte anime.