longlian/text-to-video-lvd-ms
Este modelo se basa en ModelScope, pero con un acondicionamiento adicional de cuadros delimitadores de manera similar a GLIGEN. Similar al Diffusión Basada en LLM (LMD), la etapa de cuadros a video del Video de Difusión Basado en LLM (LVD) permite el acondicionamiento de cuadros delimitadores basado en atención cruzada, lo que usa ModelScope tal cual. Este modelo de Hugging Face ofrece una alternativa: entrenamos un modelo GLIGEN (es decir, adaptadores de transformadores) con los pesos de ModelScope sin los bloques transformadores temporales en SA-1B, tratándolo como un modelo SD v2.1 que ha sido afinado a una resolución de 256x256. Luego fusionamos los adaptadores en ModelScope para ofrecer acondicionamiento. El modelo resultante está en este modelo de Hugging Face. Esto puede usarse con acondicionamiento basado en atención cruzada o por sí solo, similar a LMD+. Esto puede usarse con un generador de diseño de escena dinámica basado en texto en LVD o por sí solo como una versión en video de GLIGEN.
Como usar
Aquí hay un ejemplo de cómo usar este modelo:
# Código para usar el modelo
Funcionalidades
- Modelo de difusión de video basado en LLM con cuadros delimitadores
- Usa ModelScope tal cual
- Entrenado con adaptadores GLIGEN
- Resolución afinada a 256x256
- Acondicionamiento basado en atención cruzada
Casos de uso
- Generación de videos condicionada por cuadros delimitadores
- Diseño de escenas dinámicas basado en texto
- Creación de videos de alta calidad