TrackDiffusion
pengxiang
Texto a video
TrackDiffusion es un marco de generación de video novedoso que permite un control detallado sobre dinámicas complejas en la síntesis de video al condicionar el proceso de generación en las trayectorias de objetos. Este enfoque permite una manipulación precisa de las trayectorias e interacciones de los objetos, abordando los desafíos de gestionar la aparición, desaparición, cambios de escala y asegurando la consistencia entre cuadros.
Como usar
Proporcionamos los pesos para todo el unet, por lo que puedes reemplazarlo en la tubería de difusores, por ejemplo:
pretrained_model_path = "stabilityai/stable-video-diffusion-img2vid"
unet = UNetSpatioTemporalConditionModel.from_pretrained("/path/to/unet", torch_dtype=torch.float16,)
pipe = StableVideoDiffusionPipeline.from_pretrained(
pretrained_model_path,
unet=unet,
torch_dtype=torch.float16,
variant="fp16",
low_cpu_mem_usage=True)
Funcionalidades
- Modelo de difusión que toma en cuenta las trayectorias de los objetos como condiciones
- Permite un control detallado sobre la dinámica compleja en la síntesis de video
- Manipulación precisa de las trayectorias e interacciones de los objetos
- Gestión de aparición y desaparición de objetos
- Control de cambios de escala
- Asegura la consistencia entre cuadros
Casos de uso
- Generación de videos condicionados por trayectorias de objetos
- Manipulación precisa de interacciones y movimientos de objetos en videos
- Control detallado sobre la aparición y desaparición de objetos en video
- Control de cambios de escala y consistencia entre cuadros en video