Stable Diffusion 3 Medium

stabilityai

Texto a imagen

Stable Diffusion 3 Medium es un modelo transformador de difusión multimodal (MMDiT) de texto a imagen que presenta un rendimiento muy mejorado en la calidad de imagen, tipografía, comprensión de prompts complejos y eficiencia de recursos. Este modelo puede generar imágenes basadas en prompts de texto. Utiliza para ello tres codificadores de texto preentrenados: OpenCLIP-ViT/G, CLIP-ViT/L y T5-xxl.

Como usar

Este repositorio corresponde a los pesos de lanzamiento originales. Puede encontrar los pesos compatibles con diffusers aquí. Asegúrese de actualizar a la última versión de diffusers:
pip install -U diffusers

Y luego puede ejecutar:
import torch
from diffusers import StableDiffusion3Pipeline

pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3-medium-diffusers", torch_dtype=torch.float16)
pipe = pipe.to("cuda")

image = pipe(
"A cat holding a sign that says hello world",
negative_prompt="",
num_inference_steps=28,
guidance_scale=7.0,
).images[0]
image

Consulte la documentación para obtener más detalles sobre la optimización y el soporte de imagen a imagen.

Funcionalidades

Modelo generativo de texto a imagen
Basado en un transformador de difusión multimodal (MMDiT)
Incluye codificadores de texto preentrenados: OpenCLIP-ViT/G, CLIP-ViT/L, T5-xxl
Mejora en la calidad de imagen y tipografía
Comprensión avanzada de prompts complejos
Eficiencia en el uso de recursos

Casos de uso

Generación de obras de arte y uso en procesos de diseño y artísticos
Aplicaciones en herramientas educativas o creativas
Investigación sobre modelos generativos, incluyendo la comprensión de sus limitaciones