argmaxinc/mlx-stable-diffusion-3.5-large-4bit-quantized

argmaxinc

Texto a imagen

Versión cuantizada a 4 bits de Stable Diffusion 3.5 Large preparada para ejecutarse con DiffusionKit sobre MLX. El checkpoint se generó aplicando `nn.quantize` a todas las capas lineales de MMDiT, reduciendo el tamaño del modelo para inferencia local, especialmente en hardware compatible con MLX.

Como usar

Uso con DiffusionKit:
# Pipeline for Stable Diffusion 3
from diffusionkit.mlx import DiffusionPipeline

pipeline = DiffusionPipeline(
    shift=3.0,
    use_t5=False,
    model_version="argmaxinc/mlx-stable-diffusion-3.5-large-4bit-quantized",
    low_memory_mode=True,
    a16=True,
    w16=True,
)

# Image Generation
HEIGHT = 512
WIDTH = 512
NUM_STEPS = 50
CFG_WEIGHT = 5

image, _ = pipeline.generate_image(
    "a photo of a cat",
    cfg_weight=CFG_WEIGHT,
    num_steps=NUM_STEPS,
    latent_size=(HEIGHT // 8, WIDTH // 8),
)

Descarga con MLX/Hugging Face Hub:
# Download the model from the Hub
pip install huggingface_hub[hf_xet]
huggingface-cli download --local-dir mlx-stable-diffusion-3.5-large-4bit-quantized argmaxinc/mlx-stable-diffusion-3.5-large-4bit-quantized

Instalación y ejecución con CLI de DiffusionKit:
conda create -n diffusionkit python=3.11 -y
conda activate diffusionkit
pip install diffusionkit

diffusionkit-cli --prompt "detailed cinematic dof render of a \
detailed MacBook Pro on a wooden desk in a dim room with items \
around, messy dirty room. On the screen are the letters 'SD3 on \
DiffusionKit' glowing softly. High detail hard surface render" \
--model-version argmaxinc/mlx-stable-diffusion-3.5-large-4bit-quantized \
--height 768 \
--width 1360 \
--seed 1001 \
--step 50 \
--cfg 7 \
--t5 \
--output ~/Desktop/sd3_on_mac.png

Funcionalidades

Generación de imágenes a partir de texto.
Basado en `stabilityai/stable-diffusion-3.5-large`.
Cuantización a 4 bits para reducir memoria y tamaño del checkpoint.
Compatible con DiffusionKit y MLX.
Pensado para ejecución local con configuración de bajo consumo de memoria.
Modelo en inglés para prompts de generación de imagen.
Tamaño aproximado: 4.95 GB.

Casos de uso

Generar imágenes localmente desde prompts de texto usando Stable Diffusion 3.5 Large.
Probar SD3.5 Large en entornos MLX con menor uso de memoria gracias a cuantización de 4 bits.
Crear renders, escenas cinematográficas, ilustraciones y prototipos visuales desde la CLI de DiffusionKit.
Descargar y ejecutar un checkpoint cuantizado desde Hugging Face sin depender de proveedores de inferencia alojados.