Latte: Transformador de Difusión Latente para Generación de Video
maxin-cn
Texto a video
Este repositorio contiene pesos preentrenados para la generación de video a partir de texto de nuestro artículo que explora modelos de difusión latente con transformadores (Latte). Puede encontrar más visualizaciones en nuestra página del proyecto. Si desea obtener pesos preentrenados en FaceForensics, SkyTimelapse, UCF101 y Taichi-HD, por favor consulte aquí.
Como usar
# Para generación de imagen a partir de texto
bash sample/t2i.sh
Funcionalidades
- Generación de video a partir de texto
- Modelos de difusión latente con transformadores
- Pesos preentrenados disponibles para FaceForensics, SkyTimelapse, UCF101 y Taichi-HD
- Código de entrenamiento e inferencia disponible
- Latte-1 soporta generación de imagen a partir de texto
Casos de uso
- Generación de videos a partir de descripciones textuales
- Aplicaciones en análisis forense con FaceForensics
- Creación de timelapses del cielo con SkyTimelapse
- Generación de contenido de video deportivo con UCF101
- Producción de animaciones con Taichi-HD