Anything V3.1
Linaqruf
Texto a imagen
Anything V3.1 es una continuación de terceros de un modelo de difusión latente, Anything V3.0. Se dice que este modelo es una mejor versión de Anything V3.0 con un modelo VAE corregido y una clave de posición CLIP corregida. La referencia CLIP fue tomada de Stable Diffusion V1.5. El VAE fue reemplazado usando el script merge-vae de Kohya y el CLIP fue corregido usando las extensiones de webui del toolkit de Arena para el modelo de stable-diffusion.
Como usar
import torch
from torch import autocast
from diffusers import StableDiffusionPipeline, DPMSolverMultistepScheduler
model_id = "cag/anything-v3-1"
# Usar el planificador DPMSolverMultistepScheduler (DPM-Solver++) aquí en su lugar
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
pipe = pipe.to("cuda")
prompt = "masterpiece, best quality, high quality, 1girl, solo, sitting, confident expression, long blonde hair, blue eyes, formal dress"
negative_prompt = "lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry"
with autocast("cuda"):
image = pipe(prompt,
negative_prompt=negative_prompt,
width=512,
height=728,
guidance_scale=12,
num_inference_steps=50).images[0]
image.save("anime_girl.png")
Funcionalidades
- Modelos VAE y CLIP corregidos
- Soporte para etiquetas Danbooru para generar imágenes
- Modelo de generación de imágenes basado en difusión texto-a-imagen
- Licencia: CreativeML Open RAIL++-M
- Funciona con 🧨 diffusers
- Compatibilidad con resoluciones no cuadradas
Casos de uso
- Generación de imágenes estilo anime basadas en prompts textuales
- Modificación de imágenes existentes con temática anime
- Creación de imágenes detalladas con características específicas usando etiquetas Danbooru