TrackDiffusion

pengxiang
Texto a video

TrackDiffusion es un marco de generación de video novedoso que permite un control detallado sobre dinámicas complejas en la síntesis de video al condicionar el proceso de generación en las trayectorias de objetos. Este enfoque permite una manipulación precisa de las trayectorias e interacciones de los objetos, abordando los desafíos de gestionar la aparición, desaparición, cambios de escala y asegurando la consistencia entre cuadros.

Como usar

Proporcionamos los pesos para todo el unet, por lo que puedes reemplazarlo en la tubería de difusores, por ejemplo:

pretrained_model_path = "stabilityai/stable-video-diffusion-img2vid"
unet = UNetSpatioTemporalConditionModel.from_pretrained("/path/to/unet", torch_dtype=torch.float16,)
pipe = StableVideoDiffusionPipeline.from_pretrained(
pretrained_model_path, 
unet=unet,
torch_dtype=torch.float16,
variant="fp16",
low_cpu_mem_usage=True)

Funcionalidades

Modelo de difusión que toma en cuenta las trayectorias de los objetos como condiciones
Permite un control detallado sobre la dinámica compleja en la síntesis de video
Manipulación precisa de las trayectorias e interacciones de los objetos
Gestión de aparición y desaparición de objetos
Control de cambios de escala
Asegura la consistencia entre cuadros

Casos de uso

Generación de videos condicionados por trayectorias de objetos
Manipulación precisa de interacciones y movimientos de objetos en videos
Control detallado sobre la aparición y desaparición de objetos en video
Control de cambios de escala y consistencia entre cuadros en video