TrackDiffusion_SVD_Stage2

pengxiang
Texto a video

TrackDiffusion es un marco de generación de videos novedoso que permite un control granular sobre las dinámicas complejas en la síntesis de video al condicionar el proceso de generación en las trayectorias de los objetos. Este enfoque permite una manipulación precisa de las trayectorias e interacciones de los objetos, abordando desafíos como la gestión de la aparición, desaparición, cambios de escala y asegurando consistencia a lo largo de los fotogramas.

Como usar

Proporcionamos los pesos para todo el unet, por lo que puedes reemplazarlo en el pipeline de diffusers, por ejemplo:

pretrained_model_path = "stabilityai/stable-video-diffusion-img2vid"
unet = UNetSpatioTemporalConditionModel.from_pretrained("/path/to/unet", torch_dtype=torch.float16,)
pipe = StableVideoDiffusionPipeline.from_pretrained(
  pretrained_model_path,
  unet=unet,
  torch_dtype=torch.float16,
  variant="fp16",
  low_cpu_mem_usage=True
)

Funcionalidades

Control granular sobre las dinámicas complejas en la síntesis de video.
Condicionamiento del proceso de generación en las trayectorias de los objetos.
Manipulación precisa de las trayectorias e interacciones de los objetos.
Gestión de aparición y desaparición de objetos.
Manejo de cambios de escala y consistencia a través de fotogramas.

Casos de uso

Generación de videos con control preciso sobre las trayectorias de los objetos.
Manipulación de interacciones complejas en la síntesis de video.
Aplicaciones que requieren consistencia de objetos y cambios de escala a través de múltiples fotogramas.