black-forest-labs/FLUX.1-Canny-dev

black-forest-labs
Texto a imagen

FLUX.1 Canny [dev] es un transformador de flujo rectificado de 12.000 millones de parámetros para generación de imágenes a partir de texto, diseñado para seguir la estructura de una imagen de entrada usando bordes Canny. Combina adherencia al prompt con control estructural de la imagen fuente y está orientado a investigación, flujos creativos y desarrollo con pesos abiertos bajo licencia no comercial.

Como usar

Instalación básica con Diffusers:

pip install -U diffusers transformers accelerate

Ejemplo general de carga:

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("black-forest-labs/FLUX.1-Canny-dev", dtype=torch.bfloat16, device_map="cuda")

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Uso recomendado con control Canny en Diffusers:

pip install -U diffusers controlnet_aux
import torch
from controlnet_aux import CannyDetector
from diffusers import FluxControlPipeline
from diffusers.utils import load_image

pipe = FluxControlPipeline.from_pretrained("black-forest-labs/FLUX.1-Canny-dev", torch_dtype=torch.bfloat16).to("cuda")

prompt = "A robot made of exotic candies and chocolates of different kinds. The background is filled with confetti and celebratory gifts."
control_image = load_image("https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/robot.png")

processor = CannyDetector()
control_image = processor(control_image, low_threshold=50, high_threshold=200, detect_resolution=1024, image_resolution=1024)

image = pipe(
    prompt=prompt,
    control_image=control_image,
    height=1024,
    width=1024,
    num_inference_steps=50,
    guidance_scale=30.0,
).images[0]
image.save("output.png")

Funcionalidades

Generación texto-a-imagen condicionada por una imagen de control basada en bordes Canny.
Calidad de salida avanzada con buena adherencia al prompt y conservación de la estructura visual de la imagen fuente.
Entrenado con destilación de guía para mejorar la eficiencia frente a enfoques de guiado más costosos.
Pesos abiertos para investigación científica y creación de nuevos flujos de trabajo artísticos.
Compatible con Diffusers mediante FluxControlPipeline y archivos Safetensors.
Modelo gated: requiere aceptar la licencia FluxDev Non-Commercial y la política de uso aceptable para acceder al contenido.

Casos de uso

Crear imágenes nuevas que respeten la composición o silueta de una imagen de referencia mediante bordes Canny.
Desarrollar flujos creativos donde el usuario controla estructura, pose o layout y el modelo completa el estilo visual desde texto.
Investigación sobre modelos de difusión/flujo rectificado con control estructural de imagen.
Prototipado local con Diffusers para herramientas de diseño, ilustración o generación visual asistida.
Generación de contenido personal, científico o comercial en los términos permitidos por la licencia FLUX.1 [dev] Non-Commercial.