show-1-sr2
showlab
Texto a video
Show-1 es un modelo eficiente de texto a video que genera videos no solo con una alineación decente entre video y texto, sino también de alta calidad visual. Este es el modelo de super-resolución de Show-1 que escala videos de una resolución de 256x160 a 576x320. El modelo se ajusta utilizando pasos de difusión 0-900 en el conjunto de datos WebVid-10M.
Como usar
Clona el repositorio de GitHub e instala los requisitos:
git clone https://github.com/showlab/Show-1.git
pip install -r requirements.txt
Ejecuta el siguiente comando para generar un video a partir de un texto. Por defecto, esto descargará automáticamente todos los pesos del modelo desde huggingface.
python run_inference.py
También puedes descargar los pesos manualmente y cambiar pretrained_model_path en run_inference.py para ejecutar la inferencia.
git lfs install
# base
git clone https://huggingface.co/showlab/show-1-base
# interp
git clone https://huggingface.co/showlab/show-1-interpolation
# sr1
git clone https://huggingface.co/showlab/show-1-sr1
# sr2
git clone https://huggingface.co/showlab/show-1-sr2
Funcionalidades
- Generación precisa de movimiento alineado con el texto
- Más eficiente en recursos debido al uso de un espacio latente reducido
- Genera videos de alta calidad visual
- Modelo de difusión en cascada basado en píxeles y latentes
- Etapa de super-resolución (256x160 -> 576x320)
Casos de uso
- Generación de videos de alta calidad a partir de prompts textuales
- Aplicaciones en marketing y publicidad
- Producción de contenido multimedia