terminusresearch/stable-diffusion-3.0-medium_reality-mix
terminusresearch
Texto a imagen
Ajuste fino de rango completo basado en stabilityai/stable-diffusion-3-medium-diffusers, orientado a generación de imágenes texto-a-imagen con Diffusers. El modelo se entrenó durante 7.000 pasos con precisión BF16 sobre conjuntos grandes de imágenes, incluyendo photo-concept-bucket y dalle3, y mantiene el codificador de texto del modelo base porque no fue reentrenado.
Como usar
Instalación y uso básico con Diffusers:
pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("terminusresearch/stable-diffusion-3.0-medium_reality-mix", dtype=torch.bfloat16, device_map="cuda")
prompt = "unconditional (blank prompt)"
image = pipe(prompt).images[0]
Ejemplo de inferencia indicado en la tarjeta del modelo:
import torch
from diffusers import StableDiffusion3Pipeline
model_id = "sd3-reality-mix"
prompt = "ethnographic photography of teddy bear at a picnic holding a sign that says SOON, sitting next to a red sphere which is inside a capsule"
negative_prompt = "malformed, disgusting, overexposed, washed-out"
pipeline = DiffusionPipeline.from_pretrained(model_id)
pipeline.to('cuda' if torch.cuda.is_available() else 'mps' if torch.backends.mps.is_available() else 'cpu')
image = pipeline(
prompt=prompt,
negative_prompt='blurry, cropped, ugly',
num_inference_steps=30,
generator=torch.Generator(device='cuda' if torch.cuda.is_available() else 'mps' if torch.backends.mps.is_available() else 'cpu').manual_seed(1641421826),
width=1152,
height=768,
guidance_scale=5.5,
guidance_rescale=0.0,
).images[0]
image.save("output.png", format="PNG")
Funcionalidades
- Generación texto-a-imagen con arquitectura Stable Diffusion 3 Medium.
- Formato Diffusers y pesos Safetensors.
- Ajuste fino de rango completo derivado de stabilityai/stable-diffusion-3-medium-diffusers.
- Validado con prompts de fotografía, fantasía, ciencia ficción, cyberpunk, texto en carteles, escenas medievales y entornos fotorrealistas.
- Configuración de validación indicada: CFG 5.5, 30 pasos, sampler Euler, semilla 42 y resoluciones como 512x512, 1024x1024, 1280x768 y 960x1152.
- Entrenado sin modificar el codificador de texto; se puede reutilizar el codificador del modelo base para inferencia.
Casos de uso
- Crear imágenes a partir de prompts descriptivos con estética realista, fantástica, cyberpunk o de ciencia ficción.
- Generar escenas complejas con objetos, personajes, letreros y entornos detallados.
- Probar un fine-tune de Stable Diffusion 3 Medium en flujos locales con GPU CUDA o Apple MPS.
- Crear imágenes de validación en varias resoluciones y relaciones de aspecto.