PixArt-α

PixArt-alpha

Texto a imagen

PixArt-α consiste en bloques de transformador puro para la difusión latente: Puede generar directamente imágenes de 1024px desde textos en un solo proceso de muestreo. El modelo fue desarrollado por PixArt-α y es un modelo generativo de texto a imagen basado en difusión-transformador. Utiliza un codificador de texto fijo y preentrenado (T5) y un codificador de características latentes (VAE). Puedes encontrar más información en nuestro repositorio de GitHub y en el informe PIXART-α en arXiv.

Como usar

from diffusers import PixArtAlphaPipeline
import torch

pipe = PixArtAlphaPipeline.from_pretrained("PixArt-alpha/PixArt-XL-2-512x512", torch_dtype=torch.float16)
pipe = pipe.to("cuda")

# if using torch < 2.0
# pipe.enable_xformers_memory_efficient_attention()

prompt = "Un astronauta montando un caballo verde"
imagenes = pipe(prompt=prompt).images[0]

# if using torch >= 2.0
tiene la opción de mejorar la velocida de inferencia espedizando hasta un 20-30% con torch.compile. Simplemente envolviendo el unet con torch.compile antes de ejecutar el pipeline:
pipe.transformer = torch.compile(pipe.transformer, mode="reduce-overhead", fullgraph=True)

Si su GPU VRAM está limitada, puede habilitar la descarga a CPU llamando a pipe.enable_model_cpu_offload en lugar de .to("cuda"):
- pipe.to("cuda")
+ pipe.enable_model_cpu_offload()```

Para más información sobre cómo usar Pixart-α con diffusers, consulte la documentación de Pixart-α.

Funcionalidades

Generación de imágenes de 1024px desde prompts de texto
Modelo basado en Transformador Latente de Difusión
Uso de encoder de texto preentrenado (T5)
Uso de encoder de características latentes (VAE)
Código fuente disponible en GitHub
Soporte para inferencia gratuita en Hugging Face

Casos de uso

Generación de obras de arte y uso en procesos de diseño y otros procesos artísticos
Aplicaciones en herramientas educativas o creativas
Investigación sobre modelos generativos
Despliegue seguro de modelos que tienen el potencial de generar contenido dañino
Exploración y comprensión de las limitaciones y sesgos de los modelos generativos