Stable Diffusion 3 Medio

leo009

Texto a imagen

Stable Diffusion 3 Medio es un modelo Multimodal Diffusion Transformer (MMDiT) de texto a imagen que presenta un rendimiento muy mejorado en la calidad de imagen, tipografía, comprensión de indicaciones complejas y eficiencia en el uso de recursos. Este modelo es liberado bajo la Licencia de la Comunidad de Investigación No Comercial de Stability. Para obtener una Licencia de Creador o una Licencia Empresarial, visite Stability.ai o contáctenos para detalles sobre licencias comerciales.

Como usar

Asegúrese de actualizar a la última versión de diffusers:
pip install -U diffusers

Y luego puede ejecutar:
import torch
from diffusers import StableDiffusion3Pipeline

pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3-medium-diffusers", torch_dtype=torch.float16)
pipe = pipe.to("cuda")

image = pipe(
 "Un gato sosteniendo un cartel que dice hola mundo",
 negative_prompt="",
 num_inference_steps=28,
 guidance_scale=7.0,
 ).images[0]
image

Consulte la documentación para más detalles sobre la optimización y el soporte de imagen a imagen.

Funcionalidades

Generación de imágenes basada en indicaciones de texto
Usa tres codificadores de texto preentrenados: OpenCLIP-ViT/G, CLIP-ViT/L y T5-xxl
Mejorada comprensión de indicaciones complejas
Alta eficiencia en el uso de recursos

Casos de uso

Generación de obras de arte y uso en procesos de diseño y otras actividades artísticas.
Aplicaciones en herramientas educativas o creativas.
Investigación sobre modelos generativos, incluyendo la comprensión de las limitaciones de los modelos generativos.