show-1-base
Los VDM basados en píxeles pueden generar movimiento alineado con el mensaje de texto, pero generalmente requieren costos computacionales elevados en términos de tiempo y memoria GPU, especialmente al generar videos de alta resolución. Los VDM basados en latentes son más eficientes en recursos porque trabajan en un espacio latente de dimensión reducida. Sin embargo, es un desafío para un espacio latente tan pequeño (por ejemplo, 64×40 para videos de 256×160) cubrir detalles semánticos visuales ricos pero necesarios como lo describe el mensaje de texto. Para unir la fuerza y mitigar la debilidad de los VDM basados en píxeles y latentes, presentamos Show-1, un modelo de texto a video eficiente que genera videos con no solo una alineación decente con el texto del video sino también con alta calidad visual.
Como usar
Clonar el repositorio de GitHub e instalar los requisitos:
git clone https://github.com/showlab/Show-1.git
pip install -r requirements.txt
Ejecutar el siguiente comando para generar un video a partir de un mensaje de texto. De forma predeterminada, esto descargará automáticamente todos los pesos del modelo de huggingface.
python run_inference.py
También puedes descargar los pesos manualmente y cambiar el pretrained_model_path en run_inference.py para ejecutar la inferencia.
git lfs install
# base
git clone https://huggingface.co/showlab/show-1-base
# interp
git clone https://huggingface.co/showlab/show-1-interpolation
# sr1
git clone https://huggingface.co/showlab/show-1-sr1
# sr2
git clone https://huggingface.co/showlab/show-1-sr2
Funcionalidades
- Generación de video con 8 fotogramas clave a una resolución de 64x40
- Modelo ajustado a partir de DeepFloyd/IF-I-L-v1.0 en los datasets WebVid-10M e InternVid
- Modelo de difusión de texto a video en cascada basado en píxeles y latentes
- Fase de cascada: generación de fotogramas clave
- Licenciado bajo 'Creative Commons Attribution Non Commercial 4.0'
Casos de uso
- Generación de videos a partir de descripciones textuales
- Creación de contenido multimedia para redes sociales
- Visualizaciones de proyectos educativos o de investigación
- Producción de videos con recursos computacionales limitados