Stable Diffusion 3 Medio
leo009
Texto a imagen
Stable Diffusion 3 Medio es un modelo Multimodal Diffusion Transformer (MMDiT) de texto a imagen que presenta un rendimiento muy mejorado en la calidad de imagen, tipografía, comprensión de indicaciones complejas y eficiencia en el uso de recursos. Este modelo es liberado bajo la Licencia de la Comunidad de Investigación No Comercial de Stability. Para obtener una Licencia de Creador o una Licencia Empresarial, visite Stability.ai o contáctenos para detalles sobre licencias comerciales.
Como usar
Asegúrese de actualizar a la última versión de diffusers:
pip install -U diffusers
Y luego puede ejecutar:
import torch
from diffusers import StableDiffusion3Pipeline
pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3-medium-diffusers", torch_dtype=torch.float16)
pipe = pipe.to("cuda")
image = pipe(
"Un gato sosteniendo un cartel que dice hola mundo",
negative_prompt="",
num_inference_steps=28,
guidance_scale=7.0,
).images[0]
image
Consulte la documentación para más detalles sobre la optimización y el soporte de imagen a imagen.
Funcionalidades
- Generación de imágenes basada en indicaciones de texto
- Usa tres codificadores de texto preentrenados: OpenCLIP-ViT/G, CLIP-ViT/L y T5-xxl
- Mejorada comprensión de indicaciones complejas
- Alta eficiencia en el uso de recursos
Casos de uso
- Generación de obras de arte y uso en procesos de diseño y otras actividades artísticas.
- Aplicaciones en herramientas educativas o creativas.
- Investigación sobre modelos generativos, incluyendo la comprensión de las limitaciones de los modelos generativos.