stabilityai/stable-diffusion-3.5-large-tensorrt

stabilityai
Texto a imagen

Versión optimizada con NVIDIA TensorRT de Stable Diffusion 3.5 Large, un modelo texto-a-imagen MMDiT. Está pensada para inferencia de alto rendimiento en producción y aplicaciones en tiempo real, manteniendo la calidad de imagen del modelo original y mejorando el rendimiento en tipografía, comprensión de prompts complejos y eficiencia de recursos.

Como usar

Sigue las instrucciones para lanzar un contenedor TensorRT NGC.

git clone https://github.com/NVIDIA/TensorRT.git
cd TensorRT
git checkout release/sd35
docker run --rm -it --gpus all -v $PWD:/workspace nvcr.io/nvidia/pytorch:25.01-py3 /bin/bash

Instala bibliotecas y requisitos.

cd demo/Diffusion
source setup.sh

Obtén un token de acceso de Hugging Face con permisos de lectura y expórtalo.

export HF_TOKEN=

Inferencia optimizada con TensorRT en BF16:

python3 demo_txt2img_sd35.py \
 "A chic urban apartment interior highlighting mid-century modern furniture, vibrant abstract art pieces on clean white walls, and large windows providing a stunning view of the bustling city below." \
 --version=3.5-large \
 --bf16 \
 --download-onnx-models \
 --denoising-steps=30 \
 --guidance-scale 3.5 \
 --build-static-batch \
 --use-cuda-graph \
 --hf-token=$HF_TOKEN

Inferencia con cuantización FP8:

python3 demo_txt2img_sd35.py \
 "A chic urban apartment interior highlighting mid-century modern furniture, vibrant abstract art pieces on clean white walls, and large windows providing a stunning view of the bustling city below." \
 --version=3.5-large \
 --fp8 \
 --denoising-steps=30 \
 --guidance-scale 3.5 \
 --download-onnx-models \
 --build-static-batch \
 --use-cuda-graph \
 --hf-token=$HF_TOKEN \
 --onnx-dir onnx_fp8 \
 --engine-dir engine_fp8

Funcionalidades

Modelo texto-a-imagen basado en Stable Diffusion 3.5 Large.
Optimizado con la biblioteca de inferencia NVIDIA TensorRT.
Incluye exportaciones ONNX de T5, MMDiT y VAE en precisión BF16.
Incluye el modelo MMDiT cuantizado en precisión FP8.
La cuantización FP8 se realizó con NVIDIA/TensorRT-Model-Optimizer.
Probado con TensorRT 10.13 para generación a 1024x1024 con 30 pasos.
En H100, el flujo FP8 reduce el tiempo total aproximado frente a BF16, de 8101.83 ms a 5708.69 ms en la tabla publicada.
Repositorio con acceso condicionado: requiere aceptar los términos de Stability AI para acceder a archivos y contenido.

Casos de uso

Generación de imágenes a partir de texto con Stable Diffusion 3.5 Large optimizado para GPUs NVIDIA.
Despliegues de inferencia en producción donde importan latencia y rendimiento.
Aplicaciones creativas o interactivas en tiempo real que requieren generación de imágenes de alta calidad.
Flujos que necesitan mejor comprensión de prompts complejos y mejor manejo de tipografía.
Evaluación de inferencia BF16 frente a FP8 en hardware H100 con TensorRT.