show-1-interpolation
Los VDMs basados en píxeles pueden generar movimientos alineados con precisión con el mensaje textual, pero generalmente requieren costosos recursos computacionales en términos de tiempo y memoria GPU, especialmente al generar videos de alta resolución. Los VDMs basados en latentes son más eficientes en recursos porque trabajan en un espacio latente de dimensiones reducidas. Sin embargo, es un desafío para un espacio latente tan pequeño (p. ej., 64×40 para videos de 256×160) cubrir los ricos y necesarios detalles semánticos visuales descritos por el mensaje textual. Para combinar las fortalezas y aliviar las debilidades de los VDMs basados en píxeles y basados en latentes, introducimos Show-1, un modelo eficiente de texto a video que genera videos no solo con una alineación decente del video y el texto, sino también con alta calidad visual.
Como usar
Clonar el repositorio de GitHub e instalar los requisitos:
git clone https://github.com/showlab/Show-1.git
pip install -r requirements.txt
Ejecuta el siguiente comando para generar un video a partir de un mensaje textual. Por defecto, esto descargará automáticamente todos los pesos del modelo desde Hugging Face.
python run_inference.py
También puedes descargar los pesos manualmente y cambiar el pretrained_model_path en run_inference.py para ejecutar la inferencia.
git lfs install
git clone https://huggingface.co/showlab/show-1-base
git clone https://huggingface.co/showlab/show-1-interpolation
git clone https://huggingface.co/showlab/show-1-sr1
git clone https://huggingface.co/showlab/show-1-sr2
Funcionalidades
- Modelo de difusión de texto a video basado en píxeles y latentes en cascada.
- Etapa de cascada: interpolación (2fps->7.5fps).
- Fine-tuning desde el modelo showlab/show-1-base.
- Con licencia Creative Commons Attribution Non Commercial 4.0.
Casos de uso
- Generación de videos alineados con descripciones textuales.
- Interpolación de videos de baja frecuencia de cuadros (2fps) a una frecuencia de cuadros más alta (7.5fps).