Animagine XL 3.0
Linaqruf
Texto a imagen
Animagine XL 3.0 es la última versión del sofisticado modelo de texto a imagen de anime de código abierto, basado en Stable Diffusion XL. Este iteración ofrece una generación de imágenes superior con notables mejoras en la anatomía de las manos, un ordenamiento de etiquetas eficiente y un conocimiento mejorado sobre conceptos de anime. A diferencia de la versión anterior, nos enfocamos en que el modelo aprenda conceptos más que la estética.
Como usar
Para usar Animagine XL 3.0, instalar las bibliotecas necesarias de la siguiente manera:
pip install diffusers --upgrade
pip install transformers accelerate safetensors
Ejemplo de script para generar imágenes con Animagine XL 3.0:
import torch
from diffusers import (
StableDiffusionXLPipeline,
EulerAncestralDiscreteScheduler,
AutoencoderKL
)
# Cargar el componente VAE
vae = AutoencoderKL.from_pretrained(
"madebyollin/sdxl-vae-fp16-fix",
torch_dtype=torch.float16
)
# Configurar la pipeline
pipe = StableDiffusionXLPipeline.from_pretrained(
"Linaqruf/animagine-xl-3.0",
vae=vae,
torch_dtype=torch.float16,
use_safetensors=True,
)
pipe.scheduler = EulerAncestralDiscreteScheduler.from_config(pipe.scheduler.config)
pipe.to('cuda')
# Definir indicaciones y generar imagen
prompt = "1girl, arima kana, oshi no ko, solo, upper body, v, smile, looking at viewer, outdoors, night"
negative_prompt = "nsfw, lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry, artist name"
image = pipe(
prompt,
negative_prompt=negative_prompt,
width=832,
height=1216,
guidance_scale=7,
num_inference_steps=28
).images[0]
Funcionalidades
- Generación de imágenes de alta calidad desde indicaciones textuales
- Anatomía de manos mejorada
- Mejor comprensión de conceptos y interpretación de indicaciones
- Compatible con plataformas amigables para el usuario como Gradio y Google Colab
- Soporte para múltiples resoluciones de aspectos
- Optimización mediante aceleración con CUDA
Casos de uso
- Generación de imágenes de anime de alta calidad desde texto
- Creación de personajes de anime con descripciones detalladas
- Uso en plataformas colaborativas como Gradio y Google Colab
- Experimentos en generación de imágenes con múltiples resoluciones de aspecto
- Investigación y desarrollo en modelos de texto a imagen basados en difusores