DFloat11/FLUX.1-Kontext-dev-DF11

DFloat11

Texto a imagen

Versión comprimida sin pérdida con DFloat11 del modelo black-forest-labs/FLUX.1-Kontext-dev. Reduce el tamaño del modelo de 23,80 GB a 16,33 GB, mantiene salidas bit a bit idénticas al modelo BFloat16 original y permite inferencia eficiente en GPU; según la ficha, puede ejecutarse en una sola GPU de 24 GB sin pérdida de calidad.

Como usar

Instalación básica con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
    "DFloat11/FLUX.1-Kontext-dev-DF11",
    dtype=torch.bfloat16,
    device_map="cuda"
)

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Uso recomendado por la ficha del modelo con el paquete DFloat11 y Diffusers desde la rama principal:
pip install -U dfloat11[cuda12]
# or if you have CUDA version 11:
# pip install -U dfloat11[cuda11]

pip install git+https://github.com/huggingface/diffusers.git

import torch
from diffusers import FluxKontextPipeline
from diffusers.utils import load_image
from dfloat11 import DFloat11Model

pipe = FluxKontextPipeline.from_pretrained(
    "black-forest-labs/FLUX.1-Kontext-dev",
    torch_dtype=torch.bfloat16
)

DFloat11Model.from_pretrained(
    "DFloat11/FLUX.1-Kontext-dev-DF11",
    device="cpu",
    bfloat16_model=pipe.transformer,
)

pipe.enable_model_cpu_offload()

input_image = load_image(
    "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/cat.png"
)

image = pipe(
    image=input_image,
    prompt="Add a hat to the cat",
    guidance_scale=2.5,
).images[0]

image.save("kontext.png")

Funcionalidades

Generación de imágenes y edición contextual con FLUX.1-Kontext-dev.
Compresión DFloat11 sin pérdida aplicada a pesos BFloat16.
Tamaño reducido un 32% frente al modelo BFloat16 original.
Salidas bit-idénticas respecto al modelo base original.
Inferencia GPU con descompresión de pesos sobre la marcha mediante kernel CUDA.
Memoria pico reportada de 18,12 GB para generación 1024x1024, frente a 24,86 GB del original.
Tiempo de generación reportado de 83 segundos en A100, frente a 72 segundos del original.

Casos de uso

Generar imágenes con FLUX.1-Kontext-dev usando menos memoria GPU que la versión BFloat16 original.
Editar imágenes de forma contextual, por ejemplo modificar una imagen de entrada siguiendo una instrucción textual.
Ejecutar FLUX.1-Kontext-dev en hardware con alrededor de 24 GB de VRAM sin degradación de calidad reportada.
Desplegar inferencia local con Diffusers cuando se prioriza reducir el tamaño del modelo manteniendo exactitud bit a bit.