ProteusV0.4

dataautogpt3
Texto a imagen

ProteusV0.4: La Actualización de Estilo Esta actualización mejora las capacidades estilísticas, similar al enfoque de Midjourney, en lugar de avanzar en la comprensión de los prompts. Los métodos utilizados no infringen ningún material con derechos de autor. Proteus sirve como una mejora sofisticada sobre OpenDalleV1.1, aprovechando sus funcionalidades centrales para ofrecer resultados superiores. Las áreas clave de avance incluyen una mayor capacidad de respuesta a los prompts y capacidades creativas aumentadas. Para lograr esto, se ajustó con aproximadamente 220,000 imágenes con subtítulos GPTV de imágenes de stock libres de derechos de autor (con algo de anime incluido), que luego fueron normalizadas. Además, se empleó DPO (Direct Preference Optimization) a través de una colección de 10,000 pares de imágenes generadas por IA de alta calidad, cuidadosamente seleccionadas. En búsqueda de rendimiento óptimo, se entrenan modelos LORA (Adaptación de Bajo Rango) de manera independiente antes de ser incorporados selectivamente en el modelo principal a través de métodos de aplicación dinámica. Estas técnicas implican dirigirse a segmentos particulares dentro del modelo mientras se evita la interferencia con otras áreas durante la fase de aprendizaje. En consecuencia, Proteus exhibe mejoras marcadas en la representación de características faciales intrincadas y texturas de piel realistas, todo mientras mantiene una competencia loable en diversos dominios estéticos, notablemente el surrealismo, el anime y las visualizaciones al estilo de dibujos animados.

Como usar

Uso con 🧨 difusores

import torch
from diffusers import (
    StableDiffusionXLPipeline, 
    KDPM2AncestralDiscreteScheduler,
    AutoencoderKL
)

# Cargar el componente VAE
vae = AutoencoderKL.from_pretrained(
    "madebyollin/sdxl-vae-fp16-fix", 
    torch_dtype=torch.float16
)

# Configurar la pipeline
pipe = StableDiffusionXLPipeline.from_pretrained(
    "dataautogpt3/ProteusV0.4", 
    vae=vae,
    torch_dtype=torch.float16
)
pipe.scheduler = KDPM2AncestralDiscreteScheduler.from_config(pipe.scheduler.config)
pipe.to('cuda')

# Definir prompts y generar imagen
prompt = "black fluffy gorgeous dangerous cat animal creature, large orange eyes, big fluffy ears, piercing gaze, full moon, dark ambiance, best quality, extremely detailed"
negative_prompt = "nsfw, bad quality, bad anatomy, worst quality, low quality, low resolutions, extra fingers, blur, blurry, ugly, wrongs proportions, watermark, image artifacts, lowres, ugly, jpeg artifacts, deformed, noisy image"

image = pipe(
    prompt, 
    negative_prompt=negative_prompt, 
    width=1024,
    height=1024,
    guidance_scale=4,
    num_inference_steps=20
).images[0]

Funcionalidades

Actualización estilística similar al enfoque de Midjourney.
Mayor capacidad de respuesta a los prompts.
Capacidades creativas aumentadas.
Ajuste fino con 220,000 imágenes con subtítulos GPTV.
Uso de DPO con 10,000 pares de imágenes generadas por IA de alta calidad.
Incorporación de modelos LORA de manera dinámica.
Mejoras en la representación de características faciales y texturas de piel realistas.
Competencia en surrealismo, anime y visualizaciones al estilo de dibujos animados.

Casos de uso

Crear imágenes de personajes imaginarios con altos detalles.
Generar escenas surrealistas con calidad HD.
Producir arte digital intrincado en estilos como anime y surrealismo.
Representar texturas de piel realistas en representaciones faciales.
Desarrollar visuales estilizadas y creativas para proyectos artísticos.