Latte: Transformador de Difusión Latente para Generación de Video
maxin-cn
Texto a video
Este repositorio contiene los pesos preentrenados para la generación de video a partir de texto de nuestro artículo que explora modelos de difusión latente con transformadores (Latte). Puedes encontrar más visualizaciones en nuestra página del proyecto. Si deseas obtener pesos preentrenados en FaceForensics, SkyTimelapse, UCF101 y Taichi-HD, por favor consulta aquí.
Como usar
# Para generar imágenes a partir de texto
bash sample/t2i.sh
Funcionalidades
- Generación de video a partir de texto
- Transformadores de difusión latente
- Soporte para la generación de imágenes a partir de texto
- Modelos preentrenados disponibles
- Código de entrenamiento e inferencia disponible
Casos de uso
- Generación de videos a partir de descripciones textuales
- Generación de imágenes a partir de texto
- Utilización en investigaciones y desarrollo de IA
- Ampliación de bases de datos de multimedia mediante generación sintética