show-1-base-0.0

showlab

Texto a video

Pixel-based VDMs pueden generar movimiento alineado con precisión con el prompt textual, pero típicamente requieren altos costos computacionales en términos de tiempo y memoria GPU, especialmente cuando se generan videos de alta resolución. Los VDMs basados en latentes son más eficientes en recursos porque trabajan en un espacio latente de dimensiones reducidas. Pero es un desafío para un espacio latente tan pequeño (e.g., 64×40 para videos de 256×160) cubrir los detalles semánticos visuales ricos pero necesarios como se describe en el prompt textual. Para casar la fortaleza y aliviar la debilidad de los VDMs basados en píxeles y latentes, introducimos Show-1, un modelo eficiente de texto a video que genera videos no solo con una alineación decente video-texto sino también con alta calidad visual.

Como usar

Clonar el repositorio de GitHub e instalar los requisitos:
git clone https://github.com/showlab/Show-1.git
pip install -r requirements.txt

Ejecutar el siguiente comando para generar un video a partir de un prompt de texto. Por defecto, esto descargará automáticamente todos los pesos del modelo de Hugging Face.
python run_inference.py

También puedes descargar los pesos manualmente y cambiar el pretrained_model_path en run_inference.py para ejecutar la inferencia.
git lfs install

# base
git clone https://huggingface.co/showlab/show-1-base
# interp
git clone https://huggingface.co/showlab/show-1-interpolation
# sr1
git clone https://huggingface.co/showlab/show-1-sr1
# sr2
git clone https://huggingface.co/showlab/show-1-sr2

Funcionalidades

Generación de videos con 8 fotogramas clave a una resolución de 64x40.
Modelo afinado de DeepFloyd/IF-I-L-v1.0 en el conjunto de datos WebVid-10M.
Modelo basado en difusores de texto a video en cascada basado en píxeles y latentes.
Etapa en cascada: generación de fotogramas clave.

Casos de uso

Generar videos de alta calidad visual alineados con prompts textuales.
Ejecutar modelos de difusión de texto a video eficientes en recursos.