PixArt-α
PixArt-alpha
Texto a imagen
PixArt-α consiste en bloques de transformador puro para la difusión latente: Puede generar directamente imágenes de 1024px desde textos en un solo proceso de muestreo. El modelo fue desarrollado por PixArt-α y es un modelo generativo de texto a imagen basado en difusión-transformador. Utiliza un codificador de texto fijo y preentrenado (T5) y un codificador de características latentes (VAE). Puedes encontrar más información en nuestro repositorio de GitHub y en el informe PIXART-α en arXiv.
Como usar
from diffusers import PixArtAlphaPipeline
import torch
pipe = PixArtAlphaPipeline.from_pretrained("PixArt-alpha/PixArt-XL-2-512x512", torch_dtype=torch.float16)
pipe = pipe.to("cuda")
# if using torch < 2.0
# pipe.enable_xformers_memory_efficient_attention()
prompt = "Un astronauta montando un caballo verde"
imagenes = pipe(prompt=prompt).images[0]
# if using torch >= 2.0
tiene la opción de mejorar la velocida de inferencia espedizando hasta un 20-30% con torch.compile. Simplemente envolviendo el unet con torch.compile antes de ejecutar el pipeline:
pipe.transformer = torch.compile(pipe.transformer, mode="reduce-overhead", fullgraph=True)
Si su GPU VRAM está limitada, puede habilitar la descarga a CPU llamando a pipe.enable_model_cpu_offload en lugar de .to("cuda"):
- pipe.to("cuda")
+ pipe.enable_model_cpu_offload()```
Para más información sobre cómo usar Pixart-α con diffusers, consulte la documentación de Pixart-α.
Funcionalidades
- Generación de imágenes de 1024px desde prompts de texto
- Modelo basado en Transformador Latente de Difusión
- Uso de encoder de texto preentrenado (T5)
- Uso de encoder de características latentes (VAE)
- Código fuente disponible en GitHub
- Soporte para inferencia gratuita en Hugging Face
Casos de uso
- Generación de obras de arte y uso en procesos de diseño y otros procesos artísticos
- Aplicaciones en herramientas educativas o creativas
- Investigación sobre modelos generativos
- Despliegue seguro de modelos que tienen el potencial de generar contenido dañino
- Exploración y comprensión de las limitaciones y sesgos de los modelos generativos