longlian/lmd_plus

longlian
Texto a imagen

Modelo de texto a imagen basado en Diffusers y Stable Diffusion v1.4 que mejora el seguimiento de instrucciones usando un LLM como analizador de prompts y planificador de layouts. Esta reproducción de LMD+ integra adaptadores entrenados con GLIGEN para ofrecer mejor control espacial, mejor manejo de negaciones, asociación de atributos y numeracidad generativa.

Como usar

Uso principal: generación de imágenes a partir de texto con mejor control de composición y relación entre objetos. El modelo puede usarse directamente con LLMGroundedDiffusionPipeline, una versión simplificada de LMD+ sin generación por caja individual.

Funcionalidades

Generación de imágenes a partir de texto con arquitectura Diffusers
Basado en Stable Diffusion v1.4
Usa un LLM como front-end para interpretar prompts y planificar layouts
Mejora el razonamiento espacial y la obediencia al prompt
Mejora la comprensión de negaciones y la vinculación correcta de atributos
Añade adaptadores entrenados con GLIGEN para mayor control
Compatible con LLMGroundedDiffusionPipeline
Reproducción del modelo LMD+ descrito en el artículo arXiv:2305.13655

Casos de uso

Generar escenas complejas donde importa la posición relativa de los objetos
Crear imágenes a partir de descripciones con restricciones espaciales explícitas
Mejorar resultados en prompts con negaciones, conteos o atributos múltiples
Prototipar composiciones visuales guiadas por layout implícito desde lenguaje natural