stabilityai/stable-diffusion-3.5-large-tensorrt
stabilityai
Texto a imagen
Versión optimizada con NVIDIA TensorRT de Stable Diffusion 3.5 Large, un modelo texto-a-imagen MMDiT. Está pensada para inferencia de alto rendimiento en producción y aplicaciones en tiempo real, manteniendo la calidad de imagen del modelo original y mejorando el rendimiento en tipografía, comprensión de prompts complejos y eficiencia de recursos.
Como usar
Sigue las instrucciones para lanzar un contenedor TensorRT NGC.
git clone https://github.com/NVIDIA/TensorRT.git
cd TensorRT
git checkout release/sd35
docker run --rm -it --gpus all -v $PWD:/workspace nvcr.io/nvidia/pytorch:25.01-py3 /bin/bash
Instala bibliotecas y requisitos.
cd demo/Diffusion
source setup.sh
Obtén un token de acceso de Hugging Face con permisos de lectura y expórtalo.
export HF_TOKEN=
Inferencia optimizada con TensorRT en BF16:
python3 demo_txt2img_sd35.py \
"A chic urban apartment interior highlighting mid-century modern furniture, vibrant abstract art pieces on clean white walls, and large windows providing a stunning view of the bustling city below." \
--version=3.5-large \
--bf16 \
--download-onnx-models \
--denoising-steps=30 \
--guidance-scale 3.5 \
--build-static-batch \
--use-cuda-graph \
--hf-token=$HF_TOKEN
Inferencia con cuantización FP8:
python3 demo_txt2img_sd35.py \
"A chic urban apartment interior highlighting mid-century modern furniture, vibrant abstract art pieces on clean white walls, and large windows providing a stunning view of the bustling city below." \
--version=3.5-large \
--fp8 \
--denoising-steps=30 \
--guidance-scale 3.5 \
--download-onnx-models \
--build-static-batch \
--use-cuda-graph \
--hf-token=$HF_TOKEN \
--onnx-dir onnx_fp8 \
--engine-dir engine_fp8
Funcionalidades
- Modelo texto-a-imagen basado en Stable Diffusion 3.5 Large.
- Optimizado con la biblioteca de inferencia NVIDIA TensorRT.
- Incluye exportaciones ONNX de T5, MMDiT y VAE en precisión BF16.
- Incluye el modelo MMDiT cuantizado en precisión FP8.
- La cuantización FP8 se realizó con NVIDIA/TensorRT-Model-Optimizer.
- Probado con TensorRT 10.13 para generación a 1024x1024 con 30 pasos.
- En H100, el flujo FP8 reduce el tiempo total aproximado frente a BF16, de 8101.83 ms a 5708.69 ms en la tabla publicada.
- Repositorio con acceso condicionado: requiere aceptar los términos de Stability AI para acceder a archivos y contenido.
Casos de uso
- Generación de imágenes a partir de texto con Stable Diffusion 3.5 Large optimizado para GPUs NVIDIA.
- Despliegues de inferencia en producción donde importan latencia y rendimiento.
- Aplicaciones creativas o interactivas en tiempo real que requieren generación de imágenes de alta calidad.
- Flujos que necesitan mejor comprensión de prompts complejos y mejor manejo de tipografía.
- Evaluación de inferencia BF16 frente a FP8 en hardware H100 con TensorRT.