Alibaba-DAMO-Academy/LumosX
Alibaba-DAMO-Academy
Texto a video
LumosX es un modelo/framework de generación de video personalizado basado en difusión para relacionar identidades con atributos específicos. Está diseñado para generar videos con múltiples sujetos manteniendo consistencia de identidad, alineación semántica y control fino sobre atributos faciales, primer plano y fondo. Introduce mecanismos de atención relacional para modelar dependencias sujeto-atributo y mejorar la coherencia intra-grupo en escenas con varios sujetos.
Como usar
No se incluye un ejemplo de inferencia en la página del modelo. La página proporciona la cita recomendada:
@inproceedings{xinglumosx,
title={LumosX: Relate Any Identities with Their Attributes for Personalized Video Generation},
author={Xing, Jiazheng and Du, Fei and Yuan, Hangjie and Liu, Pengwei and Xu, Hongbin and Ci, Hai and Niu, Ruigang and Chen, Weihua and Wang, Fan and Liu, Yong},
booktitle={The Fourteenth International Conference on Learning Representations}
}
Funcionalidades
- Generación de texto a video personalizada con múltiples sujetos.
- Alineación fina entre identidades y atributos faciales específicos.
- Relational Self-Attention y Relational Cross-Attention para codificar dependencias explícitas entre sujeto y atributo.
- Uso de datos y señales multimodales para inferir relaciones entre sujetos, atributos y descripciones visuales.
- Orientado a videos personalizados semánticamente alineados y consistentes en identidad.
- Pesos oficiales publicados por DAMO Academy bajo licencia Apache 2.0.
Casos de uso
- Generar videos personalizados a partir de texto con varios sujetos reconocibles.
- Crear contenido donde cada persona o identidad conserve atributos faciales concretos durante el video.
- Investigación en generación de video personalizada, difusión multimodal y consistencia de identidad.
- Evaluar métodos de generación multi-sujeto con alineación semántica y control de atributos.