VADER_VideoCrafter_HPS_Aesthetic

zheyangqin
Texto a video

Hemos realizado avances significativos hacia la construcción de modelos de difusión de video fundamentales. Dado que estos modelos se entrenan utilizando grandes cantidades de datos no supervisados, se ha vuelto crucial adaptarlos a tareas específicas, como la alineación video-texto o la generación de videos éticos. Adaptar estos modelos mediante afinación supervisada requiere la recopilación de conjuntos de datos de destino de videos, lo cual es desafiante y tedioso. En este trabajo, en su lugar, utilizamos modelos de recompensa preentrenados que se aprenden mediante preferencias sobre modelos discriminativos poderosos. Estos modelos contienen información de gradiente densa con respecto a los píxeles RGB generados, lo cual es crítico para poder aprender de manera eficiente en espacios de búsqueda complejos, como los videos. Mostramos que nuestro enfoque puede permitir la alineación de la difusión de videos para generaciones estéticas, la similitud entre el contexto de texto y video, así como generaciones de video de largo horizonte que son 3 veces más largas que la longitud de secuencia de entrenamiento. Mostramos que nuestro enfoque puede aprender mucho más eficientemente en términos de consultas de recompensa y cómputo que los enfoques anteriores sin gradientes para la generación de videos.

Como usar

Para obtener más información sobre cómo usarlo, por favor revise GitHub.

Funcionalidades

Modelos de difusión de video fundamentales
Adaptación a tareas específicas como alineación video-texto
Generación de videos éticos
Modelos de recompensa preentrenados
Información de gradiente densa con respecto a los píxeles RGB generados
Generación de videos de largo horizonte

Casos de uso

Alineación de difusión de videos para generaciones estéticas
Similitud entre el contexto de texto y video
Generaciones de video de largo horizonte