Stable Diffusion 3 Medium
Stable Diffusion 3 Medium es un modelo de Transformador de Difusión Multimodal (MMDiT) de texto a imagen que presenta un rendimiento muy mejorado en calidad de imagen, tipografía, comprensión de indicaciones complejas y eficiencia de recursos. Es un modelo generativo que puede usarse para generar imágenes basadas en indicaciones de texto. Emplea tres codificadores de texto fijos y preentrenado (OpenCLIP-ViT/G, CLIP-ViT/L y T5-xxl). Este modelo se lanza bajo la Licencia de la Comunidad de Investigación No Comercial de Stability AI. Para obtener una licencia de creador o una licencia empresarial, visite Stability.ai o contáctenos para obtener detalles de licencias comerciales.
Como usar
Asegúrese de actualizar a la última versión de diffusers: pip install -U diffusers. Luego puede ejecutar:
import torch
from diffusers import StableDiffusion3Pipeline
pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3-medium-diffusers", torch_dtype=torch.float16)
pipe = pipe.to("cuda")
image = pipe(
"Un gato sosteniendo un cartel que dice hola mundo",
negative_prompt="",
num_inference_steps=28,
guidance_scale=7.0,
).images[0]
image
Para más detalles sobre la optimización y soporte de imagen a imagen, consulte la documentación.
Funcionalidades
- Modelo generativo de texto a imagen
- Transformador de Difusión Multimodal
- Mejora en la calidad de imagen y tipografía
- Comprensión de indicaciones complejas
- Eficiencia de recursos
- Tres codificadores de texto fijos y preentrenados (OpenCLIP-ViT/G, CLIP-ViT/L y T5-xxl)
Casos de uso
- Generación de obras de arte y uso en procesos de diseño y otros procesos artísticos.
- Aplicaciones en herramientas educativas o creativas.
- Investigación sobre modelos generativos, incluyendo la comprensión de las limitaciones de los modelos generativos.