longlian/lmd_plus
longlian
Texto a imagen
Modelo de texto a imagen basado en Diffusers y Stable Diffusion v1.4 que mejora el seguimiento de instrucciones usando un LLM como analizador de prompts y planificador de layouts. Esta reproducción de LMD+ integra adaptadores entrenados con GLIGEN para ofrecer mejor control espacial, mejor manejo de negaciones, asociación de atributos y numeracidad generativa.
Como usar
Uso principal: generación de imágenes a partir de texto con mejor control de composición y relación entre objetos. El modelo puede usarse directamente con LLMGroundedDiffusionPipeline, una versión simplificada de LMD+ sin generación por caja individual.
Funcionalidades
- Generación de imágenes a partir de texto con arquitectura Diffusers
- Basado en Stable Diffusion v1.4
- Usa un LLM como front-end para interpretar prompts y planificar layouts
- Mejora el razonamiento espacial y la obediencia al prompt
- Mejora la comprensión de negaciones y la vinculación correcta de atributos
- Añade adaptadores entrenados con GLIGEN para mayor control
- Compatible con LLMGroundedDiffusionPipeline
- Reproducción del modelo LMD+ descrito en el artículo arXiv:2305.13655
Casos de uso
- Generar escenas complejas donde importa la posición relativa de los objetos
- Crear imágenes a partir de descripciones con restricciones espaciales explícitas
- Mejorar resultados en prompts con negaciones, conteos o atributos múltiples
- Prototipar composiciones visuales guiadas por layout implícito desde lenguaje natural