black-forest-labs/FLUX.1-Canny-dev
black-forest-labs
Texto a imagen
FLUX.1 Canny [dev] es un transformador de flujo rectificado de 12.000 millones de parámetros para generación de imágenes a partir de texto, diseñado para seguir la estructura de una imagen de entrada usando bordes Canny. Combina adherencia al prompt con control estructural de la imagen fuente y está orientado a investigación, flujos creativos y desarrollo con pesos abiertos bajo licencia no comercial.
Como usar
Instalación básica con Diffusers:
pip install -U diffusers transformers accelerate
Ejemplo general de carga:
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("black-forest-labs/FLUX.1-Canny-dev", dtype=torch.bfloat16, device_map="cuda")
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
Uso recomendado con control Canny en Diffusers:
pip install -U diffusers controlnet_aux
import torch
from controlnet_aux import CannyDetector
from diffusers import FluxControlPipeline
from diffusers.utils import load_image
pipe = FluxControlPipeline.from_pretrained("black-forest-labs/FLUX.1-Canny-dev", torch_dtype=torch.bfloat16).to("cuda")
prompt = "A robot made of exotic candies and chocolates of different kinds. The background is filled with confetti and celebratory gifts."
control_image = load_image("https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/robot.png")
processor = CannyDetector()
control_image = processor(control_image, low_threshold=50, high_threshold=200, detect_resolution=1024, image_resolution=1024)
image = pipe(
prompt=prompt,
control_image=control_image,
height=1024,
width=1024,
num_inference_steps=50,
guidance_scale=30.0,
).images[0]
image.save("output.png")
Funcionalidades
- Generación texto-a-imagen condicionada por una imagen de control basada en bordes Canny.
- Calidad de salida avanzada con buena adherencia al prompt y conservación de la estructura visual de la imagen fuente.
- Entrenado con destilación de guía para mejorar la eficiencia frente a enfoques de guiado más costosos.
- Pesos abiertos para investigación científica y creación de nuevos flujos de trabajo artísticos.
- Compatible con Diffusers mediante FluxControlPipeline y archivos Safetensors.
- Modelo gated: requiere aceptar la licencia FluxDev Non-Commercial y la política de uso aceptable para acceder al contenido.
Casos de uso
- Crear imágenes nuevas que respeten la composición o silueta de una imagen de referencia mediante bordes Canny.
- Desarrollar flujos creativos donde el usuario controla estructura, pose o layout y el modelo completa el estilo visual desde texto.
- Investigación sobre modelos de difusión/flujo rectificado con control estructural de imagen.
- Prototipado local con Diffusers para herramientas de diseño, ilustración o generación visual asistida.
- Generación de contenido personal, científico o comercial en los términos permitidos por la licencia FLUX.1 [dev] Non-Commercial.