TempoModelCard

puffy310

Texto a video

Un modelo de texto a video producido por la comunidad utilizando atención temporal. El modelo TempoFunk fue desarrollado por Lopho, Chavez, Davut Emre, y Julian Herrera. Este modelo se ha entrenado en datos de movimiento de videos de baile, codificados en latentes VAE de stable diffusion. Las capas temporales son un puerto de Make-A-Video PyTorch a FLAX. La convolución es pseudo 3D y se realiza por separado en la dimensión espacial en 2D y sobre la dimensión temporal en 1D.

Como usar

Use el siguiente enlace para comenzar a utilizar el modelo: [https://huggingface.co/spaces/TempoFunk/makeavid-sd-jax]

Funcionalidades

Modelo de texto a video
Utiliza atención temporal
Capas temporales de Make-A-Video PyTorch portadas a FLAX
Convolución pseudo 3D
Atención temporal puramente autoatentiva
Capas temporales fijas con un dataset temático de videos de baile
Entrenado durante 80 épocas en un conjunto de 18,000 videos con 120 cuadros cada uno, seleccionando aleatoriamente un rango de 24 cuadros de cada muestra

Casos de uso

Producción de videos generativos
Producción de memes
Visualización
Texto a video personalizado