mit-han-lab/svdq-fp4-flux.1-schnell

mit-han-lab

Texto a imagen

Modelo de generación de imágenes a partir de texto basado en FLUX.1-schnell y cuantizado a 4 bits con SVDQuant. Está orientado a ejecutar difusión con menor coste de memoria manteniendo componentes de bajo rango para absorber valores atípicos. El repositorio está marcado como obsoleto y será ocultado en diciembre de 2025; se recomienda usar nunchaku-tech/nunchaku-flux.1-schnell.

Como usar

Instalación y uso con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("mit-han-lab/svdq-fp4-flux.1-schnell", dtype=torch.bfloat16, device_map="cuda")

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

También aparece como usable desde notebooks como Google Colab y Kaggle, y desde apps locales como Draw Things y DiffusionBee. No está desplegado en ningún proveedor de inferencia en la página indicada.

Funcionalidades

Generación de imágenes a partir de prompts de texto.
Basado en el modelo base black-forest-labs/FLUX.1-schnell.
Cuantización FP4 mediante SVDQuant para modelos de difusión de 4 bits.
Compatible con la librería Diffusers.
Relacionado con el artículo ICLR 2025 “SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models”.
Licencia Apache 2.0.

Casos de uso

Crear imágenes desde descripciones textuales con FLUX.1-schnell cuantizado.
Probar inferencia local de difusión con menor uso de memoria.
Evaluar SVDQuant en modelos de difusión de 4 bits.
Reproducir o comparar resultados asociados al trabajo SVDQuant de ICLR 2025.