Latte: Transformador de Difusión Latente para Generación de Video

maxin-cn
Texto a video

Este repositorio contiene pesos preentrenados para la generación de video a partir de texto de nuestro artículo que explora modelos de difusión latente con transformadores (Latte). Puede encontrar más visualizaciones en nuestra página del proyecto. Si desea obtener pesos preentrenados en FaceForensics, SkyTimelapse, UCF101 y Taichi-HD, por favor consulte aquí.

Como usar

# Para generación de imagen a partir de texto
bash sample/t2i.sh

Funcionalidades

Generación de video a partir de texto
Modelos de difusión latente con transformadores
Pesos preentrenados disponibles para FaceForensics, SkyTimelapse, UCF101 y Taichi-HD
Código de entrenamiento e inferencia disponible
Latte-1 soporta generación de imagen a partir de texto

Casos de uso

Generación de videos a partir de descripciones textuales
Aplicaciones en análisis forense con FaceForensics
Creación de timelapses del cielo con SkyTimelapse
Generación de contenido de video deportivo con UCF101
Producción de animaciones con Taichi-HD