TrackDiffusion_SVD_Stage1

pengxiang
Texto a video

TrackDiffusion es un marco novedoso de generación de video que permite el control detallado sobre dinámicas complejas en la síntesis de video al condicionar el proceso de generación en trayectorias de objetos. Este enfoque permite la manipulación precisa de las trayectorias e interacciones de objetos, abordando los desafíos de gestionar apariencias, desapariciones, cambios de escala y asegurando la consistencia entre los fotogramas.

Como usar

Proporcionamos los pesos para todo el unet, por lo que puede reemplazarlos en la pipeline de difusores, por ejemplo:

pretrained_model_path = "stabilityai/stable-video-diffusion-img2vid"
unet = UNetSpatioTemporalConditionModel.from_pretrained("/path/to/unet", torch_dtype=torch.float16,)
pipe = StableVideoDiffusionPipeline.from_pretrained(
    pretrained_model_path, 
    unet=unet,
    torch_dtype=torch.float16,
    variant="fp16",
    low_cpu_mem_usage=True)

Funcionalidades

Control detallado de trayectorias de objetos
Manipulación precisa de interacciones
Gestión de apariciones y desapariciones
Consistencia en fotogramas

Casos de uso

Generación de videos a partir de trayectorias de objetos
Manipulación de dinámicas de objetos en videos
Creación de videos con control detallado sobre los cambios de escala y trayectoria