deepgenteam/DeepGen-1.0-diffusers

deepgenteam
Texto a imagen

DeepGen 1.0 en formato Diffusers es un modelo multimodal unificado y ligero para generación y edición de imágenes. Combina un VLM Qwen2.5-VL de 3B parámetros, un DiT de 2B, un conector SCB y un VAE para ofrecer generación texto-a-imagen, edición de imágenes, generación con razonamiento, edición con razonamiento y renderizado de texto en un solo pipeline compatible con Diffusers y pesos Safetensors.

Como usar

Instalación:

pip install torch diffusers transformers safetensors einops accelerate huggingface_hub
pip install flash-attn --no-build-isolation

Cargar el pipeline:

import torch
from diffusers import DiffusionPipeline

pipe = DiffusionPipeline.from_pretrained(
    "deepgenteam/DeepGen-1.0-diffusers",
    torch_dtype=torch.bfloat16,
    trust_remote_code=True,
)
pipe.to("cuda")

# Optional: enable CPU offload for GPUs with limited memory (< 24GB)
# pipe.enable_model_cpu_offload()

Generación texto-a-imagen:

result = pipe(
    prompt="a racoon holding a shiny red apple over its head",
    height=512,
    width=512,
    num_inference_steps=50,
    guidance_scale=4.0,
    seed=42,
)
result.images[0].save("output.png")

Edición de imagen:

from PIL import Image

source_image = Image.open("guitar.png").convert("RGB")

result = pipe(
    prompt="Take a photo of this guitar placed on a sandy beach with the sunset in the background.",
    image=source_image,
    height=512,
    width=512,
    num_inference_steps=50,
    guidance_scale=4.0,
    seed=42,
)
result.images[0].save("edited.png")

Funcionalidades

Modelo texto-a-imagen y edición de imágenes compatible con Diffusers.
Arquitectura ligera de 5B parámetros: 3B VLM + 2B DiT.
Usa Stacked Channel Bridging (SCB) para alinear características jerárquicas del VLM con el backbone generativo.
Incluye pipeline autocontenido `deepgen_pipeline.py`; no requiere clonar el repositorio principal de DeepGen.
Pesos almacenados en formato Safetensors.
Soporta prompts, imagen de entrada para edición, dimensiones de salida, pasos de inferencia, escala CFG, semilla reproducible y prompt negativo.
Requiere aproximadamente 20 GB de VRAM en GPU completa o 14 GB con CPU offload.
Reporta resultados competitivos en Geneval, DPGBench, UniGenBench, GEdit-EN, ImgEdit, WISE, T2I-CoREBench, RISE y UniREditBench.

Casos de uso

Generar imágenes desde prompts de texto con control de tamaño, pasos de inferencia y semilla.
Editar una imagen de referencia siguiendo una instrucción textual.
Crear imágenes que requieren razonamiento visual o composición guiada por comprensión semántica.
Realizar edición de imágenes con razonamiento sobre el contenido de la imagen de entrada.
Renderizar texto dentro de imágenes usando un modelo unificado en lugar de varios modelos separados.
Ejecutar generación y edición localmente con Diffusers en GPU CUDA, con opción de CPU offload para GPUs con memoria limitada.