longlian/text-to-video-lvd-ms

longlian

Texto a video

Este modelo se basa en ModelScope, pero con un acondicionamiento adicional de cuadros delimitadores de manera similar a GLIGEN. Similar al Diffusión Basada en LLM (LMD), la etapa de cuadros a video del Video de Difusión Basado en LLM (LVD) permite el acondicionamiento de cuadros delimitadores basado en atención cruzada, lo que usa ModelScope tal cual. Este modelo de Hugging Face ofrece una alternativa: entrenamos un modelo GLIGEN (es decir, adaptadores de transformadores) con los pesos de ModelScope sin los bloques transformadores temporales en SA-1B, tratándolo como un modelo SD v2.1 que ha sido afinado a una resolución de 256x256. Luego fusionamos los adaptadores en ModelScope para ofrecer acondicionamiento. El modelo resultante está en este modelo de Hugging Face. Esto puede usarse con acondicionamiento basado en atención cruzada o por sí solo, similar a LMD+. Esto puede usarse con un generador de diseño de escena dinámica basado en texto en LVD o por sí solo como una versión en video de GLIGEN.

Como usar

Aquí hay un ejemplo de cómo usar este modelo:
# Código para usar el modelo

Funcionalidades

Modelo de difusión de video basado en LLM con cuadros delimitadores
Usa ModelScope tal cual
Entrenado con adaptadores GLIGEN
Resolución afinada a 256x256
Acondicionamiento basado en atención cruzada

Casos de uso

Generación de videos condicionada por cuadros delimitadores
Diseño de escenas dinámicas basado en texto
Creación de videos de alta calidad