show-1-sr1

showlab

Texto a video

Los VDMs (Modelos de Difusión Visual) basados en píxeles pueden generar movimiento alineado con la indicación textual pero típicamente requieren costos computacionales caros en términos de tiempo y memoria de GPU, especialmente cuando se generan videos de alta resolución. Los VDMs basados en latentes son más eficientes en recursos porque trabajan en un espacio latente de dimensiones reducidas. Sin embargo, es un desafío para un espacio latente tan pequeño (por ejemplo, 64×40 para videos de 256×160) cubrir detalles visuales ricos pero necesarios como lo describe la indicación textual. Para unir la fuerza y aliviar la debilidad de los VDMs basados en píxeles y latentes, presentamos Show-1, un modelo eficiente de texto a video que genera videos no solo con una alineación decente de texto y video sino también con alta calidad visual.

Como usar

Clona el repositorio de GitHub e instala los requisitos:
git clone https://github.com/showlab/Show-1.git
pip install -r requirements.txt

Ejecuta el siguiente comando para generar un video a partir de una indicación textual. Por defecto, esto descargará automáticamente todos los pesos del modelo desde Hugging Face.
python run_inference.py

También puedes descargar los pesos manualmente y cambiar la ruta pretrained_model_path en run_inference.py para ejecutar la inferencia.
git lfs install

# base
git clone https://huggingface.co/showlab/show-1-base
# interp
git clone https://huggingface.co/showlab/show-1-interpolation
# sr1
git clone https://huggingface.co/showlab/show-1-sr1
# sr2
git clone https://huggingface.co/showlab/show-1-sr2

Funcionalidades

Basado en píxeles y latentes
Modelo de cascada de texto a video
Etapa de cascada: super-resolución (64x40->256x160)
Ajustado del modelo DeepFloyd/IF-II-M-v1.0
Licencia: Creative Commons Attribution Non Commercial 4.0

Casos de uso

Generación de videos alineados con indicaciones textuales
Producción de videos de alta calidad visual
Super-resolución de videos de baja resolución