cagliostrolab/animagine-xl-4.0-zero
Animagine XL 4.0 Zero, también estilizado como Anim4gine, es un modelo SDXL afinado para generación de imágenes de estilo anime a partir de prompts de texto basados en etiquetas. Fue reentrenado desde Stable Diffusion XL 1.0 con 8,4 millones de imágenes anime diversas, con corte de conocimiento del 7 de enero de 2025, y unas 2650 horas de GPU. Además de generar y modificar imágenes anime, sirve como modelo base preentrenado para entrenamiento de LoRA y futuros fine-tunings.
Como usar
Instalación básica con Diffusers:
pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline
# Cambia a "mps" para dispositivos Apple
pipe = DiffusionPipeline.from_pretrained(
"cagliostrolab/animagine-xl-4.0-zero",
dtype=torch.bfloat16,
device_map="cuda"
)
prompt = "1girl, green hair, sweater, looking at viewer, upper body, beanie, outdoors, night, turtleneck, masterpiece, high score, great score, absurdres"
image = pipe(prompt).images[0]
Ejemplo recomendado con StableDiffusionXLPipeline y pipeline personalizado para prompts largos:
pip install diffusers transformers accelerate safetensors --upgrade
import torch
from diffusers import StableDiffusionXLPipeline
pipe = StableDiffusionXLPipeline.from_pretrained(
"cagliostrolab/animagine-xl-4.0-zero",
torch_dtype=torch.float16,
use_safetensors=True,
custom_pipeline="lpw_stable_diffusion_xl",
add_watermarker=False
)
pipe.to('cuda')
prompt = "1girl, arima kana, oshi no ko, hoshimachi suisei, hoshimachi suisei \\(1st costume\\), cosplay, looking at viewer, smile, outdoors, night, v, masterpiece, high score, great score, absurdres"
negative_prompt = "lowres, bad anatomy, bad hands, text, error, missing finger, extra digits, fewer digits, cropped, worst quality, low quality, low score, bad score, average score, signature, watermark, username, blurry"
image = pipe(
prompt,
negative_prompt=negative_prompt,
width=832,
height=1216,
guidance_scale=6,
num_inference_steps=25
).images[0]
image.save("./arima_kana.png")
Estructura de prompt recomendada: 1girl/1boy/1other, nombre del personaje, serie de origen, rating, detalles visuales, masterpiece, high score, great score, absurdres. Parámetros sugeridos: CFG 4-7, idealmente 5; 25-28 pasos, idealmente 28; sampler Euler Ancestral. Prompt negativo recomendado: lowres, bad anatomy, bad hands, text, error, missing finger, extra digits, fewer digits, cropped, worst quality, low quality, low score, bad score, average score, signature, watermark, username, blurry.
Funcionalidades
- Modelo generativo texto-a-imagen basado en difusión y compatible con StableDiffusionXLPipeline.
- Afinado específicamente para imágenes de estilo anime y prompts con etiquetas tipo Danbooru.
- Entrenado desde Stable Diffusion XL 1.0 con 8.401.464 imágenes a resolución 1024x1024.
- Soporta etiquetas de calidad como masterpiece, best quality, high score y great score para controlar detalle y calidad.
- Incluye etiquetas temporales como year 2005 hasta year 2025 para orientar estilos de época.
- Incluye etiquetas de rating como safe, sensitive, nsfw y explicit para controlar el nivel de contenido.
- Distribuido en formato Safetensors y FP16, con licencia CreativeML Open RAIL++-M.
- Diseñado también como base para entrenamiento de LoRA y fine-tuning adicional.
Casos de uso
- Generar ilustraciones anime a partir de prompts estructurados con etiquetas.
- Crear imágenes de personajes concretos cuando existan datos suficientes en el entrenamiento.
- Producir retratos, escenas y composiciones anime con control de calidad mediante etiquetas de score y calidad.
- Usar el modelo como base para entrenar LoRA o realizar fine-tuning especializado.
- Integrarlo en Diffusers, ComfyUI, Stable Diffusion WebUI, Draw Things o DiffusionBee.
- Experimentar con estilos temporales de anime mediante etiquetas de año.