Animagine XL 2.0

Linaqruf
Texto a imagen

Animagine XL 2.0 es un modelo avanzado de difusión latente de texto a imagen diseñado para crear imágenes de anime de alta resolución y detalladas. Está afinado a partir de Stable Diffusion XL 1.0 utilizando un conjunto de datos de imágenes de estilo anime de alta calidad. Este modelo, una actualización del Animagine XL 1.0, sobresale en capturar los diversos y distintos estilos del arte del anime, ofreciendo una mejor calidad de imagen y estética.

Como usar

Animagine XL es accesible a través de Gradio Web UI y Google Colab, ofreciendo interfaces fáciles de usar para la generación de imágenes:

**Instalación de Diffusers**

Asegúrese de instalar la última librería diffusers, junto con otros paquetes esenciales:

```bash
pip install diffusers --upgrade
pip install transformers accelerate safetensors

El siguiente script de Python demuestra cómo hacer inferencia con Animagine XL 2.0. El scheduler por defecto en la configuración del modelo es EulerAncestralDiscreteScheduler, pero se puede definir explícitamente para mayor claridad.

import torch
from diffusers import (
    StableDiffusionXLPipeline, 
    EulerAncestralDiscreteScheduler,
    AutoencoderKL
)

# Cargar componente VAE
vae = AutoencoderKL.from_pretrained(
    "madebyollin/sdxl-vae-fp16-fix", 
    torch_dtype=torch.float16
)

# Configurar la tubería
pipe = StableDiffusionXLPipeline.from_pretrained(
    "Linaqruf/animagine-xl-2.0", 
    vae=vae,
    torch_dtype=torch.float16, 
    use_safetensors=True, 
    variant="fp16")
pipe.scheduler = EulerAncestralDiscreteScheduler.from_config(pipe.scheduler.config)
pipe.to('cuda')

# Definir prompts y generar imagen
prompt = "face focus, cute, masterpiece, best quality, 1girl, green hair, sweater, looking at viewer, upper body, beanie, outdoors, night, turtleneck"
negative_prompt = "lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry"

image = pipe(
    prompt, 
    negative_prompt=negative_prompt, 
    width=1024,
    height=1024,
    guidance_scale=12,
    num_inference_steps=50
).images[0]

Funcionalidades

Modelo generativo de texto a imagen basado en difusión
Afinado para comprender y interpretar una amplia gama de prompts descriptivos
Complementado por una impresionante colección de adaptadores LoRA (Adaptación de Bajo Rango)
Capaz de crear imágenes de anime con atributos estilísticos únicos
Accesible a través de interfaces amigables de usuario como Gradio Web UI y Google Colab
Soporte para múltiples dimensiones de aspecto de imagen

Casos de uso

Arte y Diseño: Herramienta poderosa para artistas y diseñadores, permitiendo la creación de obras de arte estilo anime únicas y de alta calidad.
Educación: Desarrollo de contenido visual atractivo en contextos educativos, ayudando a enseñar conceptos relacionados con el arte, la tecnología y los medios.
Entretenimiento y Medios: Ideal para uso en animación, novelas gráficas y otras producciones mediáticas, ofreciendo una nueva vía para la narración de historias.
Investigación: Exploración de las fronteras de la generación de arte impulsada por IA, estudio de las complejidades de los modelos generativos y evaluación de las capacidades y limitaciones del modelo.
Uso Personal: Los entusiastas del anime pueden dar vida a sus conceptos imaginativos, creando obras de arte personalizadas basadas en sus géneros y estilos favoritos.