TrackDiffusion_ModelScope

pengxiang
Texto a video

TrackDiffusion es un novedoso marco de generación de video que permite un control detallado sobre dinámicas complejas en la síntesis de video al condicionar el proceso de generación en trayectorias de objetos. Este enfoque permite la manipulación precisa de trayectorias e interacciones de objetos, abordando los desafíos de manejar la aparición, desaparición, cambios de escala y asegurando la consistencia a través de los fotogramas.

Como usar

Proporcionamos los pesos para todo el unet, por lo que puedes reemplazarlo en el pipeline de difusores, por ejemplo:

pretrained_model_path = "stabilityai/stable-video-diffusion-img2vid"
unet = UNetSpatioTemporalConditionModel.from_pretrained("/path/to/unet", torch_dtype=torch.float16,)
pipe = StableVideoDiffusionPipeline.from_pretrained(
    pretrained_model_path,
    unet=unet,
    torch_dtype=torch.float16,
    variant="fp16",
    low_cpu_mem_usage=True)

Funcionalidades

Control detallado de trayectorias de objetos
Manejo de aparición y desaparición de objetos
Soporte para cambios de escala
Consistencia a través de los fotogramas

Casos de uso

Generación de videos condicionados a trayectorias de objetos
Manipulación precisa de interacciones en video
Creación de videos con cambios de escala consistentes de objetos