black-forest-labs/FLUX.1-Depth-dev

black-forest-labs

Texto a imagen

FLUX.1 Depth [dev] es un modelo de generación de imágenes de 12 mil millones de parámetros basado en rectified flow transformer. Genera imágenes a partir de una descripción textual mientras conserva la estructura de una imagen de entrada mediante mapas de profundidad.

Como usar

Instalación básica con Diffusers:
pip install -U diffusers transformers accelerate

Ejemplo simple:
import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
    "black-forest-labs/FLUX.1-Depth-dev",
    dtype=torch.bfloat16,
    device_map="cuda"
)

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Uso recomendado con FluxControlPipeline y preprocesamiento de profundidad:
pip install -U diffusers
pip install git+https://github.com/asomoza/image_gen_aux.git

import torch
from diffusers import FluxControlPipeline, FluxTransformer2DModel
from diffusers.utils import load_image
from image_gen_aux import DepthPreprocessor

pipe = FluxControlPipeline.from_pretrained(
    "black-forest-labs/FLUX.1-Depth-dev",
    torch_dtype=torch.bfloat16
).to("cuda")

prompt = "A robot made of exotic candies and chocolates of different kinds. The background is filled with confetti and celebratory gifts."
control_image = load_image("https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/robot.png")

processor = DepthPreprocessor.from_pretrained("LiheYoung/depth-anything-large-hf")
control_image = processor(control_image)[0].convert("RGB")

image = pipe(
    prompt=prompt,
    control_image=control_image,
    height=1024,
    width=1024,
    num_inference_steps=30,
    guidance_scale=10.0,
    generator=torch.Generator().manual_seed(42),
).images[0]

image.save("output.png")

Funcionalidades

Generación texto-a-imagen condicionada por profundidad y estructura de una imagen fuente.
Alta calidad visual con buena adherencia al prompt y preservación de la composición del input.
Entrenado con guidance distillation para mejorar la eficiencia del muestreo.
Pesos abiertos bajo licencia FLUX.1 [dev] Non-Commercial License.
Compatible con Diffusers mediante FluxControlPipeline.
No está desplegado actualmente por proveedores de inferencia en Hugging Face.

Casos de uso

Crear variaciones de una imagen manteniendo su estructura o composición mediante mapas de profundidad.
Flujos creativos donde se necesita controlar la geometría de la escena además del prompt textual.
Investigación en modelos generativos abiertos y control estructural de imágenes.
Producción de imágenes personales, científicas o comerciales permitidas por la licencia no comercial de FLUX.1 [dev].