Latte: Transformador de Difusión Latente para Generación de Video

maxin-cn

Texto a video

Este repositorio contiene los pesos preentrenados para la generación de video a partir de texto de nuestro artículo que explora modelos de difusión latente con transformadores (Latte). Puedes encontrar más visualizaciones en nuestra página del proyecto. Si deseas obtener pesos preentrenados en FaceForensics, SkyTimelapse, UCF101 y Taichi-HD, por favor consulta aquí.

Como usar

# Para generar imágenes a partir de texto
bash sample/t2i.sh

Funcionalidades

Generación de video a partir de texto
Transformadores de difusión latente
Soporte para la generación de imágenes a partir de texto
Modelos preentrenados disponibles
Código de entrenamiento e inferencia disponible

Casos de uso

Generación de videos a partir de descripciones textuales
Generación de imágenes a partir de texto
Utilización en investigaciones y desarrollo de IA
Ampliación de bases de datos de multimedia mediante generación sintética