black-forest-labs/FLUX.1-Depth-dev
black-forest-labs
Texto a imagen
FLUX.1 Depth [dev] es un modelo de generación de imágenes de 12 mil millones de parámetros basado en rectified flow transformer. Genera imágenes a partir de una descripción textual mientras conserva la estructura de una imagen de entrada mediante mapas de profundidad.
Como usar
Instalación básica con Diffusers:
pip install -U diffusers transformers accelerate
Ejemplo simple:
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
"black-forest-labs/FLUX.1-Depth-dev",
dtype=torch.bfloat16,
device_map="cuda"
)
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
Uso recomendado con FluxControlPipeline y preprocesamiento de profundidad:
pip install -U diffusers
pip install git+https://github.com/asomoza/image_gen_aux.git
import torch
from diffusers import FluxControlPipeline, FluxTransformer2DModel
from diffusers.utils import load_image
from image_gen_aux import DepthPreprocessor
pipe = FluxControlPipeline.from_pretrained(
"black-forest-labs/FLUX.1-Depth-dev",
torch_dtype=torch.bfloat16
).to("cuda")
prompt = "A robot made of exotic candies and chocolates of different kinds. The background is filled with confetti and celebratory gifts."
control_image = load_image("https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/robot.png")
processor = DepthPreprocessor.from_pretrained("LiheYoung/depth-anything-large-hf")
control_image = processor(control_image)[0].convert("RGB")
image = pipe(
prompt=prompt,
control_image=control_image,
height=1024,
width=1024,
num_inference_steps=30,
guidance_scale=10.0,
generator=torch.Generator().manual_seed(42),
).images[0]
image.save("output.png")
Funcionalidades
- Generación texto-a-imagen condicionada por profundidad y estructura de una imagen fuente.
- Alta calidad visual con buena adherencia al prompt y preservación de la composición del input.
- Entrenado con guidance distillation para mejorar la eficiencia del muestreo.
- Pesos abiertos bajo licencia FLUX.1 [dev] Non-Commercial License.
- Compatible con Diffusers mediante FluxControlPipeline.
- No está desplegado actualmente por proveedores de inferencia en Hugging Face.
Casos de uso
- Crear variaciones de una imagen manteniendo su estructura o composición mediante mapas de profundidad.
- Flujos creativos donde se necesita controlar la geometría de la escena además del prompt textual.
- Investigación en modelos generativos abiertos y control estructural de imágenes.
- Producción de imágenes personales, científicas o comerciales permitidas por la licencia no comercial de FLUX.1 [dev].