ProteusV0.3
Proteus V0.3 ha sido avanzado con 200,000 imágenes adicionales relacionadas con anime, refinadas aún más con una selección de 15,000 imágenes estéticamente agradables, mejorando significativamente sus efectos de iluminación. Esta actualización preserva su comprensión de indicaciones y mantiene sus capacidades fotorrealistas y estilísticas sin sufrir de olvido catastrófico. Proteus sirve como una mejora sofisticada sobre OpenDalleV1.1, aprovechando sus funcionalidades básicas para ofrecer resultados superiores. Las áreas clave de avance incluyen una mayor capacidad de respuesta a las indicaciones y capacidades creativas aumentadas. Para lograr esto, se afinó utilizando aproximadamente 220,000 imágenes con subtítulos GPTV de imágenes de stock sin derechos de autor (con algo de anime incluido), que luego fueron normalizadas. Además, se empleó DPO (Optimización de Preferencia Directa) a través de una colección de 10,000 pares seleccionados cuidadosamente de imágenes generadas por IA de alta calidad. Con el fin de lograr un rendimiento óptimo, numerosos modelos LORA (Adaptación de Bajo Rango) se entrenan de forma independiente antes de ser incorporados selectivamente en el modelo principal a través de métodos de aplicación dinámica. Estas técnicas implican la focalización de segmentos particulares dentro del modelo mientras se evita la interferencia con otras áreas durante la fase de aprendizaje. En consecuencia, Proteus exhibe mejoras marcadas en la representación de características faciales intrincadas y texturas de piel realistas, todo mientras mantiene una competencia encomiable en varios dominios estéticos, notablemente el surrealismo, anime y visualizaciones de estilo cartoon.
Como usar
Para usar el modelo ProteusV0.3, siga los pasos siguientes:
import torch
from diffusers import (
StableDiffusionXLPipeline,
KDPM2AncestralDiscreteScheduler,
AutoencoderKL
)
# Cargar el componente VAE
vae = AutoencoderKL.from_pretrained(
"madebyollin/sdxl-vae-fp16-fix",
torch_dtype=torch.float16
)
# Configurar el pipeline
pipe = StableDiffusionXLPipeline.from_pretrained(
"dataautogpt3/ProteusV0.3",
vae=vae,
torch_dtype=torch.float16
)
pipe.scheduler = KDPM2AncestralDiscreteScheduler.from_config(pipe.scheduler.config)
pipe.to('cuda')
# Definir indicaciones y generar imagen
prompt = "gato negro exuberante peligroso, grandes ojos naranjas, grandes orejas peludas, mirada penetrante, luna llena, ambiente oscuro, mejor calidad, extremadamente detallado"
negative_prompt = "nsfw, mala calidad, mala anatomía, peor calidad, baja calidad, bajas resoluciones, dedos extra, borroso, feo, proporciones incorrectas, marca de agua, artefactos de imagen, baja resolución, feo, artefactos jpeg, deformado, imagen ruidosa"
image = pipe(
prompt,
negative_prompt=negative_prompt,
width=1024,
height=1024,
guidance_scale=7,
num_inference_steps=20
).images[0]
Funcionalidades
- Mayor capacidad de respuesta a las indicaciones
- Capacidades creativas aumentadas
- Mejora en la representación de características faciales intrincadas
- Texturas de piel realistas
- Capacidades estilísticas avanzadas en surrealismo, anime y visualizaciones de estilo cartoon
Casos de uso
- Generación de imágenes de anime de alta calidad
- Ilustraciones estéticas y fotorrealistas
- Visualizaciones estilísticas en surrealismo y estilo cartoon
- Representación detallada de características faciales y texturas de piel