Alibaba-DAMO-Academy/LumosX

Alibaba-DAMO-Academy
Texto a video

LumosX es un modelo/framework de generación de video personalizado basado en difusión para relacionar identidades con atributos específicos. Está diseñado para generar videos con múltiples sujetos manteniendo consistencia de identidad, alineación semántica y control fino sobre atributos faciales, primer plano y fondo. Introduce mecanismos de atención relacional para modelar dependencias sujeto-atributo y mejorar la coherencia intra-grupo en escenas con varios sujetos.

Como usar

No se incluye un ejemplo de inferencia en la página del modelo. La página proporciona la cita recomendada:

@inproceedings{xinglumosx,
  title={LumosX: Relate Any Identities with Their Attributes for Personalized Video Generation},
  author={Xing, Jiazheng and Du, Fei and Yuan, Hangjie and Liu, Pengwei and Xu, Hongbin and Ci, Hai and Niu, Ruigang and Chen, Weihua and Wang, Fan and Liu, Yong},
  booktitle={The Fourteenth International Conference on Learning Representations}
}

Funcionalidades

Generación de texto a video personalizada con múltiples sujetos.
Alineación fina entre identidades y atributos faciales específicos.
Relational Self-Attention y Relational Cross-Attention para codificar dependencias explícitas entre sujeto y atributo.
Uso de datos y señales multimodales para inferir relaciones entre sujetos, atributos y descripciones visuales.
Orientado a videos personalizados semánticamente alineados y consistentes en identidad.
Pesos oficiales publicados por DAMO Academy bajo licencia Apache 2.0.

Casos de uso

Generar videos personalizados a partir de texto con varios sujetos reconocibles.
Crear contenido donde cada persona o identidad conserve atributos faciales concretos durante el video.
Investigación en generación de video personalizada, difusión multimodal y consistencia de identidad.
Evaluar métodos de generación multi-sujeto con alineación semántica y control de atributos.