PixArt-alpha/PixArt-XL-2-1024-MS

PixArt-alpha
Texto a imagen

Pixart-α consiste en bloques transformadores puros para la difusión latente: Puede generar directamente imágenes de 1024px a partir de indicaciones de texto en un solo proceso de muestreo. El modelo se puede usar para generar y modificar imágenes basadas en indicaciones de texto. Es un Modelo de Difusión Latente de Transformador que utiliza un codificador de texto preentrenado fijo (T5) y un codificador de características latentes (VAE).

Como usar

from diffusers import PixArtAlphaPipeline
import torch

pipe = PixArtAlphaPipeline.from_pretrained("PixArt-alpha/PixArt-XL-2-1024-MS", torch_dtype=torch.float16)
pipe = pipe.to("cuda")

# si usas torch < 2.0
# pipe.enable_xformers_memory_efficient_attention()

prompt = "Un astronauta montando un caballo verde"
imagenes = pipe(prompt=prompt).images[0]

Si estás utilizando torch >= 2.0, puedes mejorar la velocidad de inferencia en un 20-30% con torch.compile. Simplemente envuelve el unet con torch compile antes de ejecutar el pipeline:
pipe.transformer = torch.compile(pipe.transformer, mode="reduce-overhead", fullgraph=True)

Si estás limitado por la VRAM de la GPU, puedes habilitar la descarga en CPU llamando a pipe.enable_model_cpu_offload
en lugar de .to("cuda"):
pipe.to("cuda")
pipe.enable_model_cpu_offload()

Funcionalidades

Transformador latente
Generación de imágenes de 1024px
Codificador de texto preentrenado (T5)
Codificador de características latentes (VAE)
Código fuente disponible en GitHub
Licencia CreativeML Open RAIL++-M

Casos de uso

Generación de obras de arte y uso en procesos de diseño y otros procesos artísticos.
Aplicaciones en herramientas educativas o creativas.
Investigación sobre modelos generativos.
Despliegue seguro de modelos con el potencial de generar contenido dañino.
Investigación y comprensión de las limitaciones y sesgos de los modelos generativos.