TempoModelCard
puffy310
Texto a video
Un modelo de texto a video producido por la comunidad utilizando atención temporal. El modelo TempoFunk fue desarrollado por Lopho, Chavez, Davut Emre, y Julian Herrera. Este modelo se ha entrenado en datos de movimiento de videos de baile, codificados en latentes VAE de stable diffusion. Las capas temporales son un puerto de Make-A-Video PyTorch a FLAX. La convolución es pseudo 3D y se realiza por separado en la dimensión espacial en 2D y sobre la dimensión temporal en 1D.
Como usar
Use el siguiente enlace para comenzar a utilizar el modelo: [https://huggingface.co/spaces/TempoFunk/makeavid-sd-jax]
Funcionalidades
- Modelo de texto a video
- Utiliza atención temporal
- Capas temporales de Make-A-Video PyTorch portadas a FLAX
- Convolución pseudo 3D
- Atención temporal puramente autoatentiva
- Capas temporales fijas con un dataset temático de videos de baile
- Entrenado durante 80 épocas en un conjunto de 18,000 videos con 120 cuadros cada uno, seleccionando aleatoriamente un rango de 24 cuadros de cada muestra
Casos de uso
- Producción de videos generativos
- Producción de memes
- Visualización
- Texto a video personalizado