deepgenteam/DeepGen-1.0-diffusers
deepgenteam
Texto a imagen
DeepGen 1.0 en formato Diffusers es un modelo multimodal unificado y ligero para generación y edición de imágenes. Combina un VLM Qwen2.5-VL de 3B parámetros, un DiT de 2B, un conector SCB y un VAE para ofrecer generación texto-a-imagen, edición de imágenes, generación con razonamiento, edición con razonamiento y renderizado de texto en un solo pipeline compatible con Diffusers y pesos Safetensors.
Como usar
Instalación:
pip install torch diffusers transformers safetensors einops accelerate huggingface_hub
pip install flash-attn --no-build-isolation
Cargar el pipeline:
import torch
from diffusers import DiffusionPipeline
pipe = DiffusionPipeline.from_pretrained(
"deepgenteam/DeepGen-1.0-diffusers",
torch_dtype=torch.bfloat16,
trust_remote_code=True,
)
pipe.to("cuda")
# Optional: enable CPU offload for GPUs with limited memory (< 24GB)
# pipe.enable_model_cpu_offload()
Generación texto-a-imagen:
result = pipe(
prompt="a racoon holding a shiny red apple over its head",
height=512,
width=512,
num_inference_steps=50,
guidance_scale=4.0,
seed=42,
)
result.images[0].save("output.png")
Edición de imagen:
from PIL import Image
source_image = Image.open("guitar.png").convert("RGB")
result = pipe(
prompt="Take a photo of this guitar placed on a sandy beach with the sunset in the background.",
image=source_image,
height=512,
width=512,
num_inference_steps=50,
guidance_scale=4.0,
seed=42,
)
result.images[0].save("edited.png")
Funcionalidades
- Modelo texto-a-imagen y edición de imágenes compatible con Diffusers.
- Arquitectura ligera de 5B parámetros: 3B VLM + 2B DiT.
- Usa Stacked Channel Bridging (SCB) para alinear características jerárquicas del VLM con el backbone generativo.
- Incluye pipeline autocontenido `deepgen_pipeline.py`; no requiere clonar el repositorio principal de DeepGen.
- Pesos almacenados en formato Safetensors.
- Soporta prompts, imagen de entrada para edición, dimensiones de salida, pasos de inferencia, escala CFG, semilla reproducible y prompt negativo.
- Requiere aproximadamente 20 GB de VRAM en GPU completa o 14 GB con CPU offload.
- Reporta resultados competitivos en Geneval, DPGBench, UniGenBench, GEdit-EN, ImgEdit, WISE, T2I-CoREBench, RISE y UniREditBench.
Casos de uso
- Generar imágenes desde prompts de texto con control de tamaño, pasos de inferencia y semilla.
- Editar una imagen de referencia siguiendo una instrucción textual.
- Crear imágenes que requieren razonamiento visual o composición guiada por comprensión semántica.
- Realizar edición de imágenes con razonamiento sobre el contenido de la imagen de entrada.
- Renderizar texto dentro de imágenes usando un modelo unificado en lugar de varios modelos separados.
- Ejecutar generación y edición localmente con Diffusers en GPU CUDA, con opción de CPU offload para GPUs con memoria limitada.