ProteusV0.4-Lightning
Esta actualización mejora las capacidades estilísticas, similar al enfoque de Midjourney, en lugar de avanzar en la comprensión de las indicaciones. Los métodos utilizados no infringen ningún material con derechos de autor. Proteus es una mejora sofisticada sobre OpenDalleV1.1, aprovechando sus funcionalidades principales para entregar resultados superiores. Las áreas clave de avance incluyen una mayor capacidad de respuesta a las indicaciones y una capacidad creativa aumentada. Para lograr esto, se ajustó utilizando aproximadamente 220,000 imágenes con subtítulos de GPTV de imágenes de stock libres de derechos de autor (con algo de anime incluido), las cuales fueron normalizadas. Además, se empleó DPO (Optimización Directa de Preferencias) a través de una colección de 10,000 pares de imágenes generadas por IA cuidadosamente seleccionadas de alta calidad. En busca del rendimiento óptimo, numerosos modelos LORA (Adaptación de Bajo Rango) se entrenan de forma independiente antes de ser incorporados selectivamente en el modelo principal a través de métodos de aplicación dinámica. Estas técnicas implican apuntar a segmentos particulares dentro del modelo mientras se evita la interferencia con otras áreas durante la fase de aprendizaje. En consecuencia, Proteus exhibe mejoras notables en la representación de características faciales intrincadas y texturas de piel realistas, todo mientras mantiene una competencia admirable en varios dominios estéticos, notablemente surrealismo, anime y visualizaciones de estilo cartoon. Ajustado/entrenado en un total de más de 400,000 imágenes hasta el momento.
Como usar
import torch
from diffusers import (
StableDiffusionXLPipeline,
EulerAncestralDiscreteScheduler,
AutoencoderKL
)
Cargar el componente VAE
vae = AutoencoderKL.from_pretrained(
"madebyollin/sdxl-vae-fp16-fix",
torch_dtype=torch.float16
)
Configurar la tubería
pipe = StableDiffusionXLPipeline.from_pretrained(
"dataautogpt3/ProteusV0.4-Lightning",
vae=vae,
torch_dtype=torch.float16
)
pipe.scheduler = EulerAncestralDiscreteScheduler.from_config(pipe.scheduler.config)
pipe.to('cuda')
Definir indicaciones y generar imagen
prompt = "black fluffy gorgeous dangerous cat animal creature, large orange eyes, big fluffy ears, piercing gaze, full moon, dark ambiance, best quality, extremely detailed"
negative_prompt = "nsfw, bad quality, bad anatomy, worst quality, low quality, low resolutions, extra fingers, blur, blurry, ugly, wrongs proportions, watermark, image artifacts, lowres, ugly, jpeg artifacts, deformed, noisy image"
image = pipe(
prompt,
negative_prompt=negative_prompt,
width=1024,
height=1024,
guidance_scale=2,
num_inference_steps=8
).images[0]
Funcionalidades
- Mayor capacidad de respuesta a las indicaciones
- Capacidad creativa aumentada
- Mejora en la representación de características faciales intrincadas
- Texturas de piel realistas
- Competencia en varios dominios estéticos, incluyendo surrealismo, anime y estilo cartoon
Casos de uso
- Representaciones estilísticas mejoradas
- Generación de imágenes de alta calidad a partir de descripciones textuales
- Aplicaciones en dominios estéticos como surrealismo, anime y visualizaciones de estilo cartoon