PixArt-alpha/PixArt-XL-2-1024-MS
PixArt-alpha
Texto a imagen
Pixart-α consiste en bloques transformadores puros para la difusión latente: Puede generar directamente imágenes de 1024px a partir de indicaciones de texto en un solo proceso de muestreo. El modelo se puede usar para generar y modificar imágenes basadas en indicaciones de texto. Es un Modelo de Difusión Latente de Transformador que utiliza un codificador de texto preentrenado fijo (T5) y un codificador de características latentes (VAE).
Como usar
from diffusers import PixArtAlphaPipeline
import torch
pipe = PixArtAlphaPipeline.from_pretrained("PixArt-alpha/PixArt-XL-2-1024-MS", torch_dtype=torch.float16)
pipe = pipe.to("cuda")
# si usas torch < 2.0
# pipe.enable_xformers_memory_efficient_attention()
prompt = "Un astronauta montando un caballo verde"
imagenes = pipe(prompt=prompt).images[0]
Si estás utilizando torch >= 2.0, puedes mejorar la velocidad de inferencia en un 20-30% con torch.compile. Simplemente envuelve el unet con torch compile antes de ejecutar el pipeline:
pipe.transformer = torch.compile(pipe.transformer, mode="reduce-overhead", fullgraph=True)
Si estás limitado por la VRAM de la GPU, puedes habilitar la descarga en CPU llamando a pipe.enable_model_cpu_offload
en lugar de .to("cuda"):
pipe.to("cuda")
pipe.enable_model_cpu_offload()
Funcionalidades
- Transformador latente
- Generación de imágenes de 1024px
- Codificador de texto preentrenado (T5)
- Codificador de características latentes (VAE)
- Código fuente disponible en GitHub
- Licencia CreativeML Open RAIL++-M
Casos de uso
- Generación de obras de arte y uso en procesos de diseño y otros procesos artísticos.
- Aplicaciones en herramientas educativas o creativas.
- Investigación sobre modelos generativos.
- Despliegue seguro de modelos con el potencial de generar contenido dañino.
- Investigación y comprensión de las limitaciones y sesgos de los modelos generativos.