show-1-base

sayakpaul

Texto a video

Show-1 es un modelo eficiente de texto a video que genera videos no solo con una buena alineación video-texto, sino también con alta calidad visual. Los VDM basados en píxeles pueden generar movimiento alineado con el prompt textual, pero generalmente requieren altos costos computacionales en términos de tiempo y memoria GPU, especialmente cuando se generan videos de alta resolución. Los VDM basados en espacio latente son más eficientes en cuanto a recursos porque operan en un espacio latente de dimensión reducida. Sin embargo, es desafiante para un espacio latente tan pequeño cubrir los detalles visuales semánticos necesarios descritos por el prompt textual. Para unir la fuerza y aliviar la debilidad de los VDM basados en píxeles y latente, introducimos Show-1.

Como usar

Clona el repositorio de GitHub e instala los requisitos:

git clone https://github.com/showlab/Show-1.git
pip install -r requirements.txt
Ejecuta el siguiente comando para generar un video a partir de un prompt de texto. Por defecto, esto descargará automáticamente todos los pesos del modelo desde Hugging Face.

python run_inference.py
También puedes descargar los pesos manualmente y cambiar el pretrained_model_path en run_inference.py para ejecutar la inferencia.

git lfs install
base
git clone https://huggingface.co/showlab/show-1-base
interp
git clone https://huggingface.co/showlab/show-1-interpolation
sr1
git clone https://huggingface.co/showlab/show-1-sr1
sr2
git clone https://huggingface.co/showlab/show-1-sr2

Funcionalidades

Genera videos con una alineación decente entre el video y el texto.
Alta calidad visual.
Genera videos con 8 fotogramas clave a una resolución de 64x40.
Modelo ajustado a partir de DeepFloyd/IF-I-L-v1.0.

Casos de uso

Generación de videos a partir de descripciones textuales.
Aplicaciones que requieren alta alineación entre el contenido visual y textual.
Generación eficiente de videos en términos de consumo de memoria GPU y tiempo.