ali-vilab/modelscope-damo-text-to-video-synthesis

ali-vilab
Texto a video

Este modelo se basa en un modelo de difusión de generación de texto a video de múltiples etapas, que toma un texto descriptivo como entrada y devuelve un video que coincide con la descripción del texto.

Como usar

El modelo ha sido lanzado en ModelScope Studio y huggingface, se puede experimentar directamente; también se puede referirse a la página de Colab para construirlo uno mismo. Para facilitar la experiencia del modelo, los usuarios pueden referirse al Tutorial de Notebook de Aliyun para desarrollar rápidamente este modelo de Texto a Video. Esta demostración requiere aproximadamente 16GB de RAM de CPU y 16GB de RAM de GPU. Bajo el marco ModelScope, el modelo actual puede usarse llamando a un simple Pipeline, donde la entrada debe estar en formato de diccionario, el valor clave legal es 'text', y el contenido es un texto corto. Este modelo actualmente solo admite inferencia en la GPU. Ejemplo de código a continuación:

from huggingface_hub import snapshot_download
from modelscope.pipelines import pipeline
from modelscope.outputs import OutputKeys
import pathlib

model_dir = pathlib.Path('weights')
snapshot_download('damo-vilab/modelscope-damo-text-to-video-synthesis',
repo_type='model', local_dir=model_dir)

pipe = pipeline('text-to-video-synthesis', model_dir.as_posix())
test_text = {
'text': 'Un panda comiendo bambú en una roca.',
}
output_video_path = pipe(test_text,)[OutputKeys.OUTPUT_VIDEO]
print('output_video_path:', output_video_path)

El código anterior mostrará la ruta de guardado del video de salida, y el formato de codificación actual se puede reproducir normalmente con el reproductor VLC. El archivo mp4 de salida se puede ver con el reproductor de medios VLC. Algunos otros reproductores de medios pueden no visualizarlo normalmente.

Funcionalidades

El modelo de generación de texto a video consta de tres subredes: extracción de características de texto, modelo de difusión de características de texto a espacio latente de video, y desde el espacio latente de video al espacio visual de video.
Los parámetros del modelo en general son alrededor de 1.7 mil millones.
Apoyo de entrada en inglés.
El modelo de difusión adopta la estructura Unet3D y realiza la función de generación de video a través del proceso iterativo de eliminación de ruido desde el video de ruido gaussiano puro.

Casos de uso

El modelo puede razonar y generar videos basados en descripciones textuales arbitrarias en inglés.
Aplicaciones en investigación gracias a su capacidad de generación de contenido visual a partir de textos.
Experimentos de IA centrada en generación de medios.