show-1-base

showlab

Texto a video

Los VDM basados en píxeles pueden generar movimiento alineado con el mensaje de texto, pero generalmente requieren costos computacionales elevados en términos de tiempo y memoria GPU, especialmente al generar videos de alta resolución. Los VDM basados en latentes son más eficientes en recursos porque trabajan en un espacio latente de dimensión reducida. Sin embargo, es un desafío para un espacio latente tan pequeño (por ejemplo, 64×40 para videos de 256×160) cubrir detalles semánticos visuales ricos pero necesarios como lo describe el mensaje de texto. Para unir la fuerza y mitigar la debilidad de los VDM basados en píxeles y latentes, presentamos Show-1, un modelo de texto a video eficiente que genera videos con no solo una alineación decente con el texto del video sino también con alta calidad visual.

Como usar

Clonar el repositorio de GitHub e instalar los requisitos:
 git clone https://github.com/showlab/Show-1.git
 pip install -r requirements.txt

Ejecutar el siguiente comando para generar un video a partir de un mensaje de texto. De forma predeterminada, esto descargará automáticamente todos los pesos del modelo de huggingface.
 python run_inference.py

También puedes descargar los pesos manualmente y cambiar el pretrained_model_path en run_inference.py para ejecutar la inferencia.
 git lfs install
 # base
 git clone https://huggingface.co/showlab/show-1-base
 # interp
 git clone https://huggingface.co/showlab/show-1-interpolation
 # sr1
 git clone https://huggingface.co/showlab/show-1-sr1
 # sr2
 git clone https://huggingface.co/showlab/show-1-sr2

Funcionalidades

Generación de video con 8 fotogramas clave a una resolución de 64x40
Modelo ajustado a partir de DeepFloyd/IF-I-L-v1.0 en los datasets WebVid-10M e InternVid
Modelo de difusión de texto a video en cascada basado en píxeles y latentes
Fase de cascada: generación de fotogramas clave
Licenciado bajo 'Creative Commons Attribution Non Commercial 4.0'

Casos de uso

Generación de videos a partir de descripciones textuales
Creación de contenido multimedia para redes sociales
Visualizaciones de proyectos educativos o de investigación
Producción de videos con recursos computacionales limitados