friedrichor/stable-diffusion-2-1-realistic

friedrichor

Texto a imagen

Este modelo, denominado friedrichor/stable-diffusion-2-1-realistic, se ha ajustado a partir de stable-diffusion-2-1 utilizando friedrichor/PhotoChat_120_square_HQ. Este modelo no se ha entrenado únicamente para tareas de generación de texto a imagen, sino como parte del modelo Tiger (actualmente no es de código abierto y está en proceso de presentación) para la generación de respuestas de diálogo multimodal. Este es un modelo de difusión latente que utiliza un codificador de texto preentrenado fijo (OpenCLIP-ViT/H).

Como usar

Ejemplo de uso simple
import torch
from diffusers import StableDiffusionPipeline

device = "cuda:0"
pipe = StableDiffusionPipeline.from_pretrained("friedrichor/stable-diffusion-2-1-realistic", torch_dtype=torch.float32)
pipe.to(device)

prompt = "una mujer con un traje rojo y dorado con plumas en la cabeza"
extra_prompt = ", frente a la cámara, fotografía, rostro altamente detallado, profundidad de campo, luz tenue, estilo de Yasmin Albatoul, Harry Fayt, centrado, extremadamente detallado, Nikon D850, fotografía galardonada"
negative_prompt = "dibujos animados, anime, feo, (envejecido, barba blanca, piel negra, arrugas:1.1), (proporciones malas, característica antinatural, característica incongruente:1.4), (borroso, sin nitidez, difuso, piel sin detallar:1.2), (contorsión facial, rostro mal dibujado, iris deformado, pupilas deformadas:1.3), (manos y dedos mutados:1.5), manos desconectadas, extremidades desconectadas"

generator = torch.Generator(device=device).manual_seed(42)
image = pipe(prompt + extra_prompt,
negative_prompt=negative_prompt,
height=768, width=768,
num_inference_steps=20,
guidance_scale=7.5,
generator=generator).images[0]
image.save("image.png")

Funcionalidades

Generación de imágenes a partir de texto
Modelo de difusión basado en texto
Uso de un codificador de texto preentrenado (OpenCLIP-ViT/H)
Modelo ajustado a partir de stable-diffusion-2-1
Imágenes ajustadas y mejoradas manualmente con Gigapixel

Casos de uso

Generación de imágenes fotorrealistas a partir de descripciones textuales
Creación de imágenes detalladas y de alta calidad para contenido creativo
Mejora de la calidad de imágenes con descripciones personalizadas
Generación de respuestas de diálogo multimodal con imágenes