argmaxinc/mlx-stable-diffusion-3.5-large-4bit-quantized
argmaxinc
Texto a imagen
Versión cuantizada a 4 bits de Stable Diffusion 3.5 Large preparada para ejecutarse con DiffusionKit sobre MLX. El checkpoint se generó aplicando `nn.quantize` a todas las capas lineales de MMDiT, reduciendo el tamaño del modelo para inferencia local, especialmente en hardware compatible con MLX.
Como usar
Uso con DiffusionKit:
# Pipeline for Stable Diffusion 3
from diffusionkit.mlx import DiffusionPipeline
pipeline = DiffusionPipeline(
shift=3.0,
use_t5=False,
model_version="argmaxinc/mlx-stable-diffusion-3.5-large-4bit-quantized",
low_memory_mode=True,
a16=True,
w16=True,
)
# Image Generation
HEIGHT = 512
WIDTH = 512
NUM_STEPS = 50
CFG_WEIGHT = 5
image, _ = pipeline.generate_image(
"a photo of a cat",
cfg_weight=CFG_WEIGHT,
num_steps=NUM_STEPS,
latent_size=(HEIGHT // 8, WIDTH // 8),
)
Descarga con MLX/Hugging Face Hub:
# Download the model from the Hub
pip install huggingface_hub[hf_xet]
huggingface-cli download --local-dir mlx-stable-diffusion-3.5-large-4bit-quantized argmaxinc/mlx-stable-diffusion-3.5-large-4bit-quantized
Instalación y ejecución con CLI de DiffusionKit:
conda create -n diffusionkit python=3.11 -y
conda activate diffusionkit
pip install diffusionkit
diffusionkit-cli --prompt "detailed cinematic dof render of a \
detailed MacBook Pro on a wooden desk in a dim room with items \
around, messy dirty room. On the screen are the letters 'SD3 on \
DiffusionKit' glowing softly. High detail hard surface render" \
--model-version argmaxinc/mlx-stable-diffusion-3.5-large-4bit-quantized \
--height 768 \
--width 1360 \
--seed 1001 \
--step 50 \
--cfg 7 \
--t5 \
--output ~/Desktop/sd3_on_mac.png
Funcionalidades
- Generación de imágenes a partir de texto.
- Basado en `stabilityai/stable-diffusion-3.5-large`.
- Cuantización a 4 bits para reducir memoria y tamaño del checkpoint.
- Compatible con DiffusionKit y MLX.
- Pensado para ejecución local con configuración de bajo consumo de memoria.
- Modelo en inglés para prompts de generación de imagen.
- Tamaño aproximado: 4.95 GB.
Casos de uso
- Generar imágenes localmente desde prompts de texto usando Stable Diffusion 3.5 Large.
- Probar SD3.5 Large en entornos MLX con menor uso de memoria gracias a cuantización de 4 bits.
- Crear renders, escenas cinematográficas, ilustraciones y prototipos visuales desde la CLI de DiffusionKit.
- Descargar y ejecutar un checkpoint cuantizado desde Hugging Face sin depender de proveedores de inferencia alojados.