longlian/text-to-video-lvd-zs

longlian

Texto a video

Modelos de Difusión de Video fundamentados en LLM (LVD) creados por Long Lian, Baifeng Shi, Adam Yala, Trevor Darrell, Boyi Li en UC Berkeley/UCSF. Basado en zeroscope pero con condicionamiento adicional de cajas de límite en un estilo GLIGEN. Este modelo de Hugging Face se entrena con adaptadores GLIGEN utilizando los pesos de Zeroscope sin los bloques de transformadores temporales en SA-1B, tratándolo como un modelo SD v2.1 afinado a una resolución de 256x256. Se fusionan los adaptadores en Zeroscope para ofrecer condicionamiento.

Como usar

Si utilizas nuestro trabajo, modelo, o nuestra implementación en este repo, o los encuentras útiles, por favor considera darnos una cita. @article{lian2023llmgroundedvideo, title={LLM-grounded Video Diffusion Models}, author={Lian, Long and Shi, Baifeng and Yala, Adam and Darrell, Trevor and Li, Boyi}, journal={arXiv preprint arXiv:2309.17444}, year={2023} } @article{li2023gligen, title={GLIGEN: Open-Set Grounded Text-to-Image Generation}, author={Li, Yuheng y Liu, Haotian y Wu, Qingyang y Mu, Fangzhou y Yang, Jianwei y Gao, Jianfeng y Li, Chunyuan y Lee, Yong Jae}, journal={CVPR}, year={2023} } @article{wang2023modelscope, title={Modelscope text-to-video technical report}, author={Wang, Jiuniu y Yuan, Hangjie y Chen, Dayou y Zhang, Yingya y Wang, Xiang y Zhang, Shiwei}, journal={arXiv preprint arXiv:2308.06571}, year={2023} } @InProceedings{VideoFusion, author = {Luo, Zhengxiong y Chen, Dayou y Zhang, Yingya y Huang, Yan y Wang, Liang y Shen, Yujun y Zhao, Deli y Zhou, Jingren y Tan, Tieniu}, title = {VideoFusion: Modelos de Difusión Descompuestos para Generación de Videos de Alta Calidad}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {Junio}, year = {2023} }

Funcionalidades

Condicionamiento basado en cajas de límite con atención cruzada.
Uso de adaptadores GLIGEN entrenados con los pesos de Zeroscope.
Modelo afinado a una resolución de 256x256.
Funciona en combinación o de manera independiente con el generador de diseño de escenas dinámicas basado en LLM en LVD.

Casos de uso

Generación autónoma de videos condicionados por cajas de límite con atención cruzada.
Utilización junto a generadores de diseño de escenas dinámicas basado en LLM.
Creación de versiones de video de modelos GLIGEN.