cagliostrolab/animagine-xl-4.0-zero

cagliostrolab

Texto a imagen

Animagine XL 4.0 Zero, también estilizado como Anim4gine, es un modelo SDXL afinado para generación de imágenes de estilo anime a partir de prompts de texto basados en etiquetas. Fue reentrenado desde Stable Diffusion XL 1.0 con 8,4 millones de imágenes anime diversas, con corte de conocimiento del 7 de enero de 2025, y unas 2650 horas de GPU. Además de generar y modificar imágenes anime, sirve como modelo base preentrenado para entrenamiento de LoRA y futuros fine-tunings.

Como usar

Instalación básica con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# Cambia a "mps" para dispositivos Apple
pipe = DiffusionPipeline.from_pretrained(
    "cagliostrolab/animagine-xl-4.0-zero",
    dtype=torch.bfloat16,
    device_map="cuda"
)

prompt = "1girl, green hair, sweater, looking at viewer, upper body, beanie, outdoors, night, turtleneck, masterpiece, high score, great score, absurdres"
image = pipe(prompt).images[0]

Ejemplo recomendado con StableDiffusionXLPipeline y pipeline personalizado para prompts largos:
pip install diffusers transformers accelerate safetensors --upgrade

import torch
from diffusers import StableDiffusionXLPipeline

pipe = StableDiffusionXLPipeline.from_pretrained(
    "cagliostrolab/animagine-xl-4.0-zero",
    torch_dtype=torch.float16,
    use_safetensors=True,
    custom_pipeline="lpw_stable_diffusion_xl",
    add_watermarker=False
)
pipe.to('cuda')

prompt = "1girl, arima kana, oshi no ko, hoshimachi suisei, hoshimachi suisei \\(1st costume\\), cosplay, looking at viewer, smile, outdoors, night, v, masterpiece, high score, great score, absurdres"
negative_prompt = "lowres, bad anatomy, bad hands, text, error, missing finger, extra digits, fewer digits, cropped, worst quality, low quality, low score, bad score, average score, signature, watermark, username, blurry"

image = pipe(
    prompt,
    negative_prompt=negative_prompt,
    width=832,
    height=1216,
    guidance_scale=6,
    num_inference_steps=25
).images[0]

image.save("./arima_kana.png")

Estructura de prompt recomendada: 1girl/1boy/1other, nombre del personaje, serie de origen, rating, detalles visuales, masterpiece, high score, great score, absurdres. Parámetros sugeridos: CFG 4-7, idealmente 5; 25-28 pasos, idealmente 28; sampler Euler Ancestral. Prompt negativo recomendado: lowres, bad anatomy, bad hands, text, error, missing finger, extra digits, fewer digits, cropped, worst quality, low quality, low score, bad score, average score, signature, watermark, username, blurry.

Funcionalidades

Modelo generativo texto-a-imagen basado en difusión y compatible con StableDiffusionXLPipeline.
Afinado específicamente para imágenes de estilo anime y prompts con etiquetas tipo Danbooru.
Entrenado desde Stable Diffusion XL 1.0 con 8.401.464 imágenes a resolución 1024x1024.
Soporta etiquetas de calidad como masterpiece, best quality, high score y great score para controlar detalle y calidad.
Incluye etiquetas temporales como year 2005 hasta year 2025 para orientar estilos de época.
Incluye etiquetas de rating como safe, sensitive, nsfw y explicit para controlar el nivel de contenido.
Distribuido en formato Safetensors y FP16, con licencia CreativeML Open RAIL++-M.
Diseñado también como base para entrenamiento de LoRA y fine-tuning adicional.

Casos de uso

Generar ilustraciones anime a partir de prompts estructurados con etiquetas.
Crear imágenes de personajes concretos cuando existan datos suficientes en el entrenamiento.
Producir retratos, escenas y composiciones anime con control de calidad mediante etiquetas de score y calidad.
Usar el modelo como base para entrenar LoRA o realizar fine-tuning especializado.
Integrarlo en Diffusers, ComfyUI, Stable Diffusion WebUI, Draw Things o DiffusionBee.
Experimentar con estilos temporales de anime mediante etiquetas de año.