terminusresearch/stable-diffusion-3.0-medium_reality-mix

terminusresearch

Texto a imagen

Ajuste fino de rango completo basado en stabilityai/stable-diffusion-3-medium-diffusers, orientado a generación de imágenes texto-a-imagen con Diffusers. El modelo se entrenó durante 7.000 pasos con precisión BF16 sobre conjuntos grandes de imágenes, incluyendo photo-concept-bucket y dalle3, y mantiene el codificador de texto del modelo base porque no fue reentrenado.

Como usar

Instalación y uso básico con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("terminusresearch/stable-diffusion-3.0-medium_reality-mix", dtype=torch.bfloat16, device_map="cuda")

prompt = "unconditional (blank prompt)"
image = pipe(prompt).images[0]

Ejemplo de inferencia indicado en la tarjeta del modelo:
import torch
from diffusers import StableDiffusion3Pipeline

model_id = "sd3-reality-mix"
prompt = "ethnographic photography of teddy bear at a picnic holding a sign that says SOON, sitting next to a red sphere which is inside a capsule"
negative_prompt = "malformed, disgusting, overexposed, washed-out"

pipeline = DiffusionPipeline.from_pretrained(model_id)
pipeline.to('cuda' if torch.cuda.is_available() else 'mps' if torch.backends.mps.is_available() else 'cpu')

image = pipeline(
    prompt=prompt,
    negative_prompt='blurry, cropped, ugly',
    num_inference_steps=30,
    generator=torch.Generator(device='cuda' if torch.cuda.is_available() else 'mps' if torch.backends.mps.is_available() else 'cpu').manual_seed(1641421826),
    width=1152,
    height=768,
    guidance_scale=5.5,
    guidance_rescale=0.0,
).images[0]

image.save("output.png", format="PNG")

Funcionalidades

Generación texto-a-imagen con arquitectura Stable Diffusion 3 Medium.
Formato Diffusers y pesos Safetensors.
Ajuste fino de rango completo derivado de stabilityai/stable-diffusion-3-medium-diffusers.
Validado con prompts de fotografía, fantasía, ciencia ficción, cyberpunk, texto en carteles, escenas medievales y entornos fotorrealistas.
Configuración de validación indicada: CFG 5.5, 30 pasos, sampler Euler, semilla 42 y resoluciones como 512x512, 1024x1024, 1280x768 y 960x1152.
Entrenado sin modificar el codificador de texto; se puede reutilizar el codificador del modelo base para inferencia.

Casos de uso

Crear imágenes a partir de prompts descriptivos con estética realista, fantástica, cyberpunk o de ciencia ficción.
Generar escenas complejas con objetos, personajes, letreros y entornos detallados.
Probar un fine-tune de Stable Diffusion 3 Medium en flujos locales con GPU CUDA o Apple MPS.
Crear imágenes de validación en varias resoluciones y relaciones de aspecto.