masterful/gligen-1-4-generation-text-box

masterful
Texto a imagen

Modelo GLIGEN de generación de imágenes condicionada por texto y cajas delimitadoras. Puede crear una imagen a partir de un prompt y colocar objetos descritos por texto dentro de regiones específicas; si también se proporcionan imágenes de entrada, puede insertar objetos en las zonas indicadas. Está basado en difusión latente, usa un codificador de texto CLIP ViT-L/14 congelado y está pensado para ejecutarse con Diffusers.

Como usar

Instalación y uso básico con Diffusers:

pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
    "masterful/gligen-1-4-generation-text-box",
    dtype=torch.bfloat16,
    device_map="cuda"
)

prompt = "A high tech solarpunk utopia in the Amazon rainforest"
image = pipe(prompt).images[0]

Ejemplo con cajas delimitadoras usando StableDiffusionGLIGENPipeline:

pip install --upgrade diffusers transformers scipy
import torch
from diffusers import StableDiffusionGLIGENPipeline
from diffusers.utils import load_image

# Generate an image described by the prompt and
# insert objects described by text at the region defined by bounding boxes
pipe = StableDiffusionGLIGENPipeline.from_pretrained(
    "masterful/gligen-1-4-generation-text-box",
    variant="fp16",
    torch_dtype=torch.float16
)
pipe = pipe.to("cuda")

prompt = "a waterfall and a modern high speed train running through the tunnel in a beautiful forest with fall foliage"
boxes = [[0.1387, 0.2051, 0.4277, 0.7090], [0.4980, 0.4355, 0.8516, 0.7266]]
phrases = ["a waterfall", "a modern high speed train running through the tunnel"]

images = pipe(
    prompt=prompt,
    gligen_phrases=phrases,
    gligen_boxes=boxes,
    gligen_scheduled_sampling_beta=1,
    output_type="pil",
    num_inference_steps=50,
).images

images[0].save("./gligen-1-4-generation-text-box.jpg")

Funcionalidades

Generación texto-a-imagen con control espacial mediante bounding boxes.
Inserción de objetos descritos por texto en regiones concretas de la imagen.
Compatible con StableDiffusionGLIGENPipeline y Diffusers.
Entrenado con COCO2014D y COCO2014CD para entradas de grounding.
Usa CLIP ViT-L/14 como codificador de texto fijo.
Licencia CreativeML OpenRAIL-M.

Casos de uso

Investigación sobre modelos generativos con control espacial.
Evaluación de sesgos, límites y seguridad en modelos texto-a-imagen.
Generación de arte, diseño visual y herramientas creativas o educativas.
Experimentos donde se necesita indicar qué objeto debe aparecer en una zona concreta de la imagen.
Prototipos de edición o composición visual basada en texto y bounding boxes.