PixArt-Sigma-XL-2-1024-MS

PixArt-alpha

Texto a imagen

PixArt-Σ consta de bloques de transformadores puros para la difusión latente: puede generar directamente imágenes de 1024px, 2K y 4K a partir de indicaciones de texto en un solo proceso de muestreo. Este es un modelo que se puede utilizar para generar y modificar imágenes basadas en indicaciones de texto. Es un Modelo de Difusión Latente con Transformadores que utiliza un único codificador de texto fijo y preentrenado (T5) y un codificador de características latentes (VAE).

Como usar

Para simplemente usar el modelo base, puedes ejecutar:
import torch
from diffusers import Transformer2DModel, PixArtSigmaPipeline

device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
weight_dtype = torch.float16

pipe = PixArtSigmaPipeline.from_pretrained(
"PixArt-alpha/PixArt-Sigma-XL-2-1024-MS", 
torch_dtype=weight_dtype,
use_safetensors=True,
)
pipe.to(device)

# Enable memory optimizations.
# pipe.enable_model_cpu_offload()

prompt = "Un pequeño cactus con una cara feliz en el desierto del Sahara."
image = pipe(prompt).images[0]
image.save("./catcus.png")

Cuando uses torch >= 2.0, puedes mejorar la velocidad de inferencia en un 20-30% con torch.compile. Simplemente envuelve el unet con torch compile antes de ejecutar la tubería:
pipe.transformer = torch.compile(pipe.transformer, mode="reduce-overhead", fullgraph=True)

Si tienes limitaciones por la VRAM de la GPU, puedes habilitar la transferencia de carga a la CPU llamando a pipe.enable_model_cpu_offload en lugar de to("cuda"):
- pipe.to("cuda")
+ pipe.enable_model_cpu_offload()

Funcionalidades

Generación directa de imágenes de 1024px, 2K y 4K a partir de indicaciones de texto.
Uso de bloques de transformadores puros para la difusión latente.
Utiliza un codificador de texto preentrenado (T5) y un codificador de características latentes (VAE).
Código fuente disponible en GitHub.
Modelo basado en difusores.

Casos de uso

Generación de obras de arte y uso en procesos de diseño y otras artes.
Aplicaciones en herramientas educativas o creativas.
Investigación en modelos generativos.
Despliegue seguro de modelos que tienen el potencial de generar contenido dañino.
Exploración y entendimiento de las limitaciones y sesgos de los modelos generativos.