Stable Diffusion 3 Medium

stabilityai
Texto a imagen

Stable Diffusion 3 Medium es un modelo de Transformador de Difusión Multimodal (MMDiT) de texto a imagen que presenta un rendimiento muy mejorado en calidad de imagen, tipografía, comprensión de indicaciones complejas y eficiencia de recursos. Es un modelo generativo que puede usarse para generar imágenes basadas en indicaciones de texto. Emplea tres codificadores de texto fijos y preentrenado (OpenCLIP-ViT/G, CLIP-ViT/L y T5-xxl). Este modelo se lanza bajo la Licencia de la Comunidad de Investigación No Comercial de Stability AI. Para obtener una licencia de creador o una licencia empresarial, visite Stability.ai o contáctenos para obtener detalles de licencias comerciales.

Como usar

Asegúrese de actualizar a la última versión de diffusers: pip install -U diffusers. Luego puede ejecutar:

import torch
from diffusers import StableDiffusion3Pipeline

pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3-medium-diffusers", torch_dtype=torch.float16)
pipe = pipe.to("cuda")

image = pipe(
"Un gato sosteniendo un cartel que dice hola mundo",
negative_prompt="",
num_inference_steps=28,
guidance_scale=7.0,
).images[0]
image

Para más detalles sobre la optimización y soporte de imagen a imagen, consulte la documentación.

Funcionalidades

Modelo generativo de texto a imagen
Transformador de Difusión Multimodal
Mejora en la calidad de imagen y tipografía
Comprensión de indicaciones complejas
Eficiencia de recursos
Tres codificadores de texto fijos y preentrenados (OpenCLIP-ViT/G, CLIP-ViT/L y T5-xxl)

Casos de uso

Generación de obras de arte y uso en procesos de diseño y otros procesos artísticos.
Aplicaciones en herramientas educativas o creativas.
Investigación sobre modelos generativos, incluyendo la comprensión de las limitaciones de los modelos generativos.