show-1-sr2

showlab

Texto a video

Show-1 es un modelo eficiente de texto a video que genera videos no solo con una alineación decente entre video y texto, sino también de alta calidad visual. Este es el modelo de super-resolución de Show-1 que escala videos de una resolución de 256x160 a 576x320. El modelo se ajusta utilizando pasos de difusión 0-900 en el conjunto de datos WebVid-10M.

Como usar

Clona el repositorio de GitHub e instala los requisitos:
git clone https://github.com/showlab/Show-1.git
pip install -r requirements.txt

Ejecuta el siguiente comando para generar un video a partir de un texto. Por defecto, esto descargará automáticamente todos los pesos del modelo desde huggingface.
python run_inference.py

También puedes descargar los pesos manualmente y cambiar pretrained_model_path en run_inference.py para ejecutar la inferencia.
git lfs install
# base
git clone https://huggingface.co/showlab/show-1-base
# interp
git clone https://huggingface.co/showlab/show-1-interpolation
# sr1
git clone https://huggingface.co/showlab/show-1-sr1
# sr2
git clone https://huggingface.co/showlab/show-1-sr2

Funcionalidades

Generación precisa de movimiento alineado con el texto
Más eficiente en recursos debido al uso de un espacio latente reducido
Genera videos de alta calidad visual
Modelo de difusión en cascada basado en píxeles y latentes
Etapa de super-resolución (256x160 -> 576x320)

Casos de uso

Generación de videos de alta calidad a partir de prompts textuales
Aplicaciones en marketing y publicidad
Producción de contenido multimedia