Nitro-1-PixArt
amd
Texto a imagen
Modelo de texto a imagen de un solo paso desarrollado por AMD. Está destilado a partir de PixArt-Sigma para generar imágenes de alta resolución con mucha menos latencia y coste computacional, manteniendo una degradación moderada en métricas de calidad frente al modelo base.
Como usar
Cargar la pipeline base de PixArt-Sigma, sustituir los pesos del transformador por los de Nitro-1-PixArt y ejecutar inferencia con un único paso.
from diffusers import PixArtSigmaPipeline
import torch
from safetensors.torch import load_file
pipe = PixArtSigmaPipeline.from_pretrained("PixArt-alpha/PixArt-Sigma-XL-2-1024-MS")
ckpt_path = ' '
transformer_state_dict = load_file(ckpt_path)
pipe.transformer.load_state_dict(transformer_state_dict)
pipe = pipe.to("cuda")
image = pipe(prompt='a photo of a cat', num_inference_steps=1, guidance_scale=0, timesteps=[400]).images[0]
Funcionalidades
- Generación de imágenes a partir de texto en un solo paso de inferencia
- Arquitectura transformadora compatible con la pipeline de `diffusers` de PixArt-Sigma
- Destilado desde `PixArt-alpha/PixArt-Sigma-XL-2-1024-MS`
- Reducción del 90.9% en FLOPs frente a PixArt-Sigma de 20 pasos
- Latencia aproximada de 0.53 s en AMD Instinct MI250
- Entrenado con 1 millón de prompts de DiffusionDB
- Licencia Apache 2.0
Casos de uso
- Generación rápida de imágenes de alta resolución a partir de prompts de texto
- Prototipado visual con hardware AMD Instinct
- Investigación en destilación de modelos de difusión
- Despliegues donde la latencia y el coste de inferencia importan más que una pequeña pérdida de calidad