Anything V3.1

Linaqruf
Texto a imagen

Anything V3.1 es una continuación de terceros de un modelo de difusión latente, Anything V3.0. Se dice que este modelo es una mejor versión de Anything V3.0 con un modelo VAE corregido y una clave de posición CLIP corregida. La referencia CLIP fue tomada de Stable Diffusion V1.5. El VAE fue reemplazado usando el script merge-vae de Kohya y el CLIP fue corregido usando las extensiones de webui del toolkit de Arena para el modelo de stable-diffusion.

Como usar

import torch
from torch import autocast
from diffusers import StableDiffusionPipeline, DPMSolverMultistepScheduler

model_id = "cag/anything-v3-1"

# Usar el planificador DPMSolverMultistepScheduler (DPM-Solver++) aquí en su lugar
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
pipe = pipe.to("cuda")

prompt = "masterpiece, best quality, high quality, 1girl, solo, sitting, confident expression, long blonde hair, blue eyes, formal dress"
negative_prompt = "lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry"

with autocast("cuda"):
image = pipe(prompt, 
negative_prompt=negative_prompt, 
width=512,
height=728,
guidance_scale=12,
num_inference_steps=50).images[0]
    
image.save("anime_girl.png")

Funcionalidades

Modelos VAE y CLIP corregidos
Soporte para etiquetas Danbooru para generar imágenes
Modelo de generación de imágenes basado en difusión texto-a-imagen
Licencia: CreativeML Open RAIL++-M
Funciona con 🧨 diffusers
Compatibilidad con resoluciones no cuadradas

Casos de uso

Generación de imágenes estilo anime basadas en prompts textuales
Modificación de imágenes existentes con temática anime
Creación de imágenes detalladas con características específicas usando etiquetas Danbooru