Jiali/stable-diffusion-1.5

Jiali

Texto a imagen

Modelo de difusión latente para texto a imagen capaz de generar imágenes fotorrealistas a partir de prompts en texto. Esta variante v1.5 se inicializó desde Stable Diffusion v1-2 y se afinó durante 595.000 pasos a resolución 512x512 sobre "laion-aesthetics v2 5+", con eliminación del 10% del condicionamiento de texto para mejorar el muestreo con classifier-free guidance.

Como usar

from diffusers import StableDiffusionPipeline
import torch

model_id = "runwayml/stable-diffusion-v1-5"
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe = pipe.to("cuda")

prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt).images[0]
image.save("astronaut_rides_horse.png")

Funcionalidades

Generación de imágenes a partir de texto con enfoque fotorrealista
Basado en Latent Diffusion Model con codificador de texto CLIP ViT-L/14 preentrenado
Compatible con Diffusers y con checkpoints `.ckpt` para inferencia o ajuste fino
Resolución de entrenamiento principal de 512x512
Incluye recomendación de uso con Safety Checker de Diffusers para filtrar contenido NSFW
Disponible en variantes de pesos optimizadas para menor VRAM o para fine-tuning

Casos de uso

Investigación sobre despliegue seguro de modelos capaces de generar contenido dañino
Análisis de limitaciones y sesgos en modelos generativos
Generación de obras visuales y apoyo a procesos de diseño artístico
Herramientas educativas o creativas basadas en generación de imágenes
Investigación general en modelos generativos