ProteusV0.5

dataautogpt3

Texto a imagen

ProteusV0.5 es la última versión completa de mi modelo de generación de imágenes por IA, construido como una mejora sofisticada sobre OpenDalleV1.1. Esta versión trae mejoras significativas en fotorrealismo, comprensión de prompts y capacidades estilísticas en varios dominios. Proteus aprovecha y mejora las funcionalidades principales de OpenDalleV1.1 para ofrecer resultados superiores. Las áreas clave de avance incluyen una mayor capacidad de respuesta a los prompts y capacidades creativas aumentadas. El modelo ha sido afinado utilizando un conjunto de datos cuidadosamente seleccionado de imágenes de stock libres de derechos de autor y pares de imágenes generadas por IA de alta calidad.

Como usar

import torch
from diffusers import (
StableDiffusionXLPipeline, 
KDPM2AncestralDiscreteScheduler,
AutoencoderKL
)

# Cargar el componente VAE
vae = AutoencoderKL.from_pretrained(
"madebyollin/sdxl-vae-fp16-fix", 
torch_dtype=torch.float16
)

# Configurar el pipeline
pipe = StableDiffusionXLPipeline.from_pretrained(
"dataautogpt3/ProteusV0.5", 
vae=vae,
torch_dtype=torch.float16
)
pipe.scheduler = KDPM2AncestralDiscreteScheduler.from_config(pipe.scheduler.config)
pipe.to('cuda')

# Definir prompts y generar imagen
prompt = "un gato con gafas de sol en la playa"
negative_prompt = ""

image = pipe(
prompt, 
negative_prompt=negative_prompt, 
width=1024,
height=1024,
guidance_scale=7,
num_inference_steps=50,
clip_skip=2
).images[0]

image.save("generated_image.png")

Funcionalidades

Integración avanzada de CLIP personalizada: Incorpora un modelo CLIP personalizado meticulosamente entrenado, desarrollado constantemente durante un período prolongado y afinado aún más para cualidades específicas en Proteus y Prometheus. Requiere una configuración de clip skip de 2 para un rendimiento óptimo.
Mejora de las capacidades estilísticas: Mayor capacidad para generar estilos artísticos diversos, mejor coherencia en escenas y composiciones complejas.
Conjunto de datos de entrenamiento ampliado: Ahora totaliza más de 400,000 imágenes, lo que amplia significativamente la base de conocimiento y las capacidades de generación.
Creatividad y precisión equilibradas: Se abordaron problemas previos de ser 'demasiado estilístico/creativo' y se mejoró la alineación entre los prompts de los usuarios y los outputs generados.

Casos de uso

Generación de imágenes fotorrealistas y estilizadas a partir de descripciones textuales.
Creación de arte digital en estilos surrealista, anime y tipo cartoon.
Producción de retratos detallados y texturas de piel realistas.
Realización de proyectos creativos visuales con coherencia y precisión mejoradas.