Jiali/stable-diffusion-1.5
Jiali
Texto a imagen
Modelo de difusión latente para texto a imagen capaz de generar imágenes fotorrealistas a partir de prompts en texto. Esta variante v1.5 se inicializó desde Stable Diffusion v1-2 y se afinó durante 595.000 pasos a resolución 512x512 sobre "laion-aesthetics v2 5+", con eliminación del 10% del condicionamiento de texto para mejorar el muestreo con classifier-free guidance.
Como usar
from diffusers import StableDiffusionPipeline
import torch
model_id = "runwayml/stable-diffusion-v1-5"
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe = pipe.to("cuda")
prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt).images[0]
image.save("astronaut_rides_horse.png")
Funcionalidades
- Generación de imágenes a partir de texto con enfoque fotorrealista
- Basado en Latent Diffusion Model con codificador de texto CLIP ViT-L/14 preentrenado
- Compatible con Diffusers y con checkpoints `.ckpt` para inferencia o ajuste fino
- Resolución de entrenamiento principal de 512x512
- Incluye recomendación de uso con Safety Checker de Diffusers para filtrar contenido NSFW
- Disponible en variantes de pesos optimizadas para menor VRAM o para fine-tuning
Casos de uso
- Investigación sobre despliegue seguro de modelos capaces de generar contenido dañino
- Análisis de limitaciones y sesgos en modelos generativos
- Generación de obras visuales y apoyo a procesos de diseño artístico
- Herramientas educativas o creativas basadas en generación de imágenes
- Investigación general en modelos generativos