Animagine XL 3.0

Linaqruf
Texto a imagen

Animagine XL 3.0 es la última versión del sofisticado modelo de texto a imagen de anime de código abierto, basado en Stable Diffusion XL. Este iteración ofrece una generación de imágenes superior con notables mejoras en la anatomía de las manos, un ordenamiento de etiquetas eficiente y un conocimiento mejorado sobre conceptos de anime. A diferencia de la versión anterior, nos enfocamos en que el modelo aprenda conceptos más que la estética.

Como usar

Para usar Animagine XL 3.0, instalar las bibliotecas necesarias de la siguiente manera:

pip install diffusers --upgrade
pip install transformers accelerate safetensors

Ejemplo de script para generar imágenes con Animagine XL 3.0:

import torch
from diffusers import (
    StableDiffusionXLPipeline, 
    EulerAncestralDiscreteScheduler,
    AutoencoderKL
)

# Cargar el componente VAE
vae = AutoencoderKL.from_pretrained(
    "madebyollin/sdxl-vae-fp16-fix", 
    torch_dtype=torch.float16
)

# Configurar la pipeline
pipe = StableDiffusionXLPipeline.from_pretrained(
    "Linaqruf/animagine-xl-3.0", 
    vae=vae,
    torch_dtype=torch.float16, 
    use_safetensors=True, 
)
pipe.scheduler = EulerAncestralDiscreteScheduler.from_config(pipe.scheduler.config)
pipe.to('cuda')

# Definir indicaciones y generar imagen
prompt = "1girl, arima kana, oshi no ko, solo, upper body, v, smile, looking at viewer, outdoors, night"
negative_prompt = "nsfw, lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry, artist name"

image = pipe(
    prompt, 
    negative_prompt=negative_prompt, 
    width=832,
    height=1216,
    guidance_scale=7,
    num_inference_steps=28
).images[0]

Funcionalidades

Generación de imágenes de alta calidad desde indicaciones textuales
Anatomía de manos mejorada
Mejor comprensión de conceptos y interpretación de indicaciones
Compatible con plataformas amigables para el usuario como Gradio y Google Colab
Soporte para múltiples resoluciones de aspectos
Optimización mediante aceleración con CUDA

Casos de uso

Generación de imágenes de anime de alta calidad desde texto
Creación de personajes de anime con descripciones detalladas
Uso en plataformas colaborativas como Gradio y Google Colab
Experimentos en generación de imágenes con múltiples resoluciones de aspecto
Investigación y desarrollo en modelos de texto a imagen basados en difusores