sd3-reality-mix

bghira

Texto a imagen

Esta es una afinación completa de la clasificación derivada de stabilityai/stable-diffusion-3-medium-diffusers. El principal prompt de validación utilizado durante el entrenamiento fue: fotografía etnográfica de un oso de peluche en un picnic sosteniendo un cartel que dice SOON, sentado junto a una esfera roja que está dentro de una cápsula.

Como usar

import torch
from diffusers import StableDiffusion3Pipeline

model_id = "sd3-reality-mix"
prompt = "fotografía etnográfica de un oso de peluche en un picnic sosteniendo un cartel que dice SOON, sentado junto a una esfera roja que está dentro de una cápsula"
negative_prompt = "deformado, repugnante, sobreexpuesto, lavado"

pipeline = DiffusionPipeline.from_pretrained(model_id)
pipeline.to('cuda' if torch.cuda.is_available() else 'mps' if torch.backends.mps.is_available() else 'cpu')
image = pipeline(
prompt=prompt,
negative_prompt='blurry, cropped, ugly',
num_inference_steps=30,
generator=torch.Generator(device='cuda' if torch.cuda.is_available() else 'mps' if torch.backends.mps.is_available() else 'cpu').manual_seed(1641421826),
width=1152,
height=768,
guidance_scale=5.5,
guidance_rescale=0.0,
).images[0]
image.save("output.png", format="PNG")

Funcionalidades

Utiliza el pipeline de StableDiffusion3
Admite varios tamaños de resolución: 512x512, 1024x1024, 1280x768, 960x1152
Compatible con procesadores CUDA y MPS para inferencia
Licencia creativeml-openrail-m

Casos de uso

Generación de imágenes textuales de alta calidad
Aplicaciones artísticas y creativas
Proyectos de investigación y desarrollo
Fotografía etnográfica y conceptos visuales