VADER_VideoCrafter_PickScore

zheyangqin

Texto a video

Hemos hecho un progreso significativo hacia la construcción de modelos fundamentales de difusión de video. Dado que estos modelos se entrenan utilizando datos no supervisados a gran escala, se ha vuelto crucial adaptar estos modelos a tareas específicas, como la alineación de video-texto o la generación de video ético. La adaptación de estos modelos mediante ajuste fino supervisado requiere la recolección de conjuntos de datos de videos objetivos, lo cual es desafiante y tedioso. En este trabajo, utilizamos en su lugar modelos de recompensa preentrenados que se aprenden a través de preferencias sobre modelos discriminativos poderosos. Estos modelos contienen información de gradiente densa con respecto a los píxeles RGB generados, lo cual es crítico para poder aprender de manera eficiente en espacios de búsqueda complejos, como los videos. Mostramos que nuestro enfoque puede permitir la alineación de la difusión del video para generaciones estéticas, similitud entre el contexto del texto y el video, así como generaciones de video de largo horizonte que son 3 veces más largas que la secuencia de entrenamiento. Mostramos que nuestro enfoque puede aprender mucho más eficientemente en términos de consultas de recompensa y cálculo que los enfoques anteriores que no utilizan gradientes para la generación de video.

Como usar

Para más información sobre cómo usarlo, por favor consulte GitHub.

Funcionalidades

Alineación de difusión de video para generaciones estéticas.
Similitud entre el contexto del texto y el video.
Generaciones de video de largo horizonte que son 3X más largas que la secuencia de entrenamiento.
Más eficiencia en términos de consultas de recompensa y cálculo.

Casos de uso

Alineación de video-texto.
Generación de video ético.
Generación de video estético.
Secuencias de video de largo horizonte.