aaronamortegui/relismoilumi

aaronamortegui

Texto a imagen

Modelo de generación de imágenes a partir de texto basado en Stable Diffusion v2-1. Es un modelo de difusión latente ajustado desde Stable Diffusion 2, con codificador de texto OpenCLIP-ViT/H, orientado a crear o modificar imágenes mediante prompts, especialmente en inglés.

Como usar

Instalación y uso con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
    "aaronamortegui/relismoilumi",
    dtype=torch.bfloat16,
    device_map="cuda"
)

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Ejemplo relacionado de Stable Diffusion v2-1 con scheduler DPM-Solver++:
pip install diffusers transformers accelerate scipy safetensors

from diffusers import StableDiffusionPipeline, DPMSolverMultistepScheduler

model_id = "stabilityai/stable-diffusion-2-1"

pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
pipe = pipe.to("cuda")

prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt).images[0]
image.save("astronaut_rides_horse.png")

Para equipos con poca VRAM, la ficha recomienda pipe.enable_attention_slicing() después de enviar el pipeline a CUDA, aceptando menor velocidad a cambio de menor uso de memoria.

Funcionalidades

Generación texto-a-imagen con arquitectura de difusión latente.
Compatible con Diffusers y pesos en formato Safetensors.
Basado en Stable Diffusion v2-1, ajustado desde el checkpoint 768-v-ema de Stable Diffusion 2.
Usa OpenCLIP-ViT/H como codificador de texto fijo.
Licencia OpenRAIL++ / CreativeML Open RAIL++-M.
No está desplegado actualmente en proveedores de inferencia de Hugging Face.

Casos de uso

Investigación sobre despliegue seguro de modelos capaces de generar contenido dañino.
Análisis de limitaciones y sesgos en modelos generativos de imágenes.
Creación de arte, diseño visual y procesos creativos asistidos por prompts.
Herramientas educativas o creativas basadas en generación de imágenes.
Investigación en modelos generativos y difusión latente.