Animagine XL

Linaqruf

Texto a imagen

Animagine XL es un modelo de difusión de texto a imagen de alta resolución y latente. El modelo ha sido ajustado utilizando una tasa de aprendizaje de 4e-7 durante 27000 pasos globales con un tamaño de lote de 16 en un conjunto de datos curado de imágenes de estilo anime de calidad superior. Este modelo se deriva de Stable Diffusion XL 1.0.

Como usar

Cómo usar:
Descargue Animagine XL aquí, el modelo está en formato .safetensors.
Debe usar etiquetas de estilo Danbooru como indicaciones en lugar de lenguaje natural, de lo contrario, obtendrá un resultado realista en lugar de anime.
Puede usar cualquier indicación negativa genérica o usar la siguiente indicación negativa sugerida para guiar al modelo hacia generaciones estéticamente agradables:
lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry
Y, lo siguiente también debe anteceder a las indicaciones para obtener resultados estéticamente elevados:
masterpiece, best quality
Use esta hoja de trucos para encontrar la mejor resolución:

768 x 1344: Vertical (9:16)
915 x 1144: Retrato (4:5)
1024 x 1024: Cuadrado (1:1)
1182 x 886: Foto (4:3)
1254 x 836: Paisaje (3:2)
1365 x 768: Pantalla ancha (16:9)
1564 x 670: Cinemático (21:9)

Apoyamos también una interfaz web Gradio y Colab con Diffusers para ejecutar Animagine XL:
Ejemplo de código para ejecutar el modelo:
import torch
from torch import autocast
from diffusers import StableDiffusionXLPipeline, EulerAncestralDiscreteScheduler

model = "Linaqruf/animagine-xl"

pipe = StableDiffusionXLPipeline.from_pretrained(
    model,
    torch_dtype=torch.float16,
    use_safetensors=True,
    variant="fp16"
)

pipe.scheduler = EulerAncestralDiscreteScheduler.from_config(pipe.scheduler.config)
pipe.to('cuda')

prompt = "face focus, cute, masterpiece, best quality, 1girl, green hair, sweater, looking at viewer, upper body, beanie, outdoors, night, turtleneck"
negative_prompt = "lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry"

image = pipe(
    prompt,
    negative_prompt=negative_prompt,
    width=1024,
    height=1024,
    guidance_scale=12,
    target_size=(1024,1024),
    original_size=(4096,4096),
    num_inference_steps=50
).images[0]

image.save("anime_girl.png")

Funcionalidades

Imágenes de alta resolución: El modelo se entrenó con una resolución de 1024x1024 utilizando la herramienta NovelAI Aspect Ratio Bucketing, lo que le permite entrenarse en resoluciones no cuadradas.
Generación de estilo anime: Basado en indicaciones de texto, el modelo puede crear imágenes de estilo anime de alta calidad.
Proceso de difusión ajustado: El modelo utiliza un proceso de difusión ajustado para asegurar una salida de imagen de alta calidad y única.

Casos de uso

Generación de imágenes de alta calidad de estilo anime basadas en descripciones de texto.
Modificación de imágenes para adaptarlas a estilos específicos de anime.
Creación de contenido visual de anime para proyectos artísticos y creativos.