Stable Diffusion 3 Medium
stabilityai
Texto a imagen
Stable Diffusion 3 Medium es un modelo transformador de difusión multimodal (MMDiT) de texto a imagen que presenta un rendimiento muy mejorado en la calidad de imagen, tipografía, comprensión de prompts complejos y eficiencia de recursos. Este modelo puede generar imágenes basadas en prompts de texto. Utiliza para ello tres codificadores de texto preentrenados: OpenCLIP-ViT/G, CLIP-ViT/L y T5-xxl.
Como usar
Este repositorio corresponde a los pesos de lanzamiento originales. Puede encontrar los pesos compatibles con diffusers aquí. Asegúrese de actualizar a la última versión de diffusers:
pip install -U diffusers
Y luego puede ejecutar:
import torch
from diffusers import StableDiffusion3Pipeline
pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3-medium-diffusers", torch_dtype=torch.float16)
pipe = pipe.to("cuda")
image = pipe(
"A cat holding a sign that says hello world",
negative_prompt="",
num_inference_steps=28,
guidance_scale=7.0,
).images[0]
image
Consulte la documentación para obtener más detalles sobre la optimización y el soporte de imagen a imagen.
Funcionalidades
- Modelo generativo de texto a imagen
- Basado en un transformador de difusión multimodal (MMDiT)
- Incluye codificadores de texto preentrenados: OpenCLIP-ViT/G, CLIP-ViT/L, T5-xxl
- Mejora en la calidad de imagen y tipografía
- Comprensión avanzada de prompts complejos
- Eficiencia en el uso de recursos
Casos de uso
- Generación de obras de arte y uso en procesos de diseño y artísticos
- Aplicaciones en herramientas educativas o creativas
- Investigación sobre modelos generativos, incluyendo la comprensión de sus limitaciones