Nitro-1-PixArt

amd

Texto a imagen

Modelo de texto a imagen de un solo paso desarrollado por AMD. Está destilado a partir de PixArt-Sigma para generar imágenes de alta resolución con mucha menos latencia y coste computacional, manteniendo una degradación moderada en métricas de calidad frente al modelo base.

Como usar

Cargar la pipeline base de PixArt-Sigma, sustituir los pesos del transformador por los de Nitro-1-PixArt y ejecutar inferencia con un único paso.
from diffusers import PixArtSigmaPipeline
import torch
from safetensors.torch import load_file

pipe = PixArtSigmaPipeline.from_pretrained("PixArt-alpha/PixArt-Sigma-XL-2-1024-MS")
ckpt_path = ' '
transformer_state_dict = load_file(ckpt_path)
pipe.transformer.load_state_dict(transformer_state_dict)
pipe = pipe.to("cuda")
image = pipe(prompt='a photo of a cat', num_inference_steps=1, guidance_scale=0, timesteps=[400]).images[0]

Funcionalidades

Generación de imágenes a partir de texto en un solo paso de inferencia
Arquitectura transformadora compatible con la pipeline de `diffusers` de PixArt-Sigma
Destilado desde `PixArt-alpha/PixArt-Sigma-XL-2-1024-MS`
Reducción del 90.9% en FLOPs frente a PixArt-Sigma de 20 pasos
Latencia aproximada de 0.53 s en AMD Instinct MI250
Entrenado con 1 millón de prompts de DiffusionDB
Licencia Apache 2.0

Casos de uso

Generación rápida de imágenes de alta resolución a partir de prompts de texto
Prototipado visual con hardware AMD Instinct
Investigación en destilación de modelos de difusión
Despliegues donde la latencia y el coste de inferencia importan más que una pequeña pérdida de calidad