TrackDiffusion_SVD_Stage2
pengxiang
Texto a video
TrackDiffusion es un marco de generación de videos novedoso que permite un control granular sobre las dinámicas complejas en la síntesis de video al condicionar el proceso de generación en las trayectorias de los objetos. Este enfoque permite una manipulación precisa de las trayectorias e interacciones de los objetos, abordando desafíos como la gestión de la aparición, desaparición, cambios de escala y asegurando consistencia a lo largo de los fotogramas.
Como usar
Proporcionamos los pesos para todo el unet, por lo que puedes reemplazarlo en el pipeline de diffusers, por ejemplo:
pretrained_model_path = "stabilityai/stable-video-diffusion-img2vid"
unet = UNetSpatioTemporalConditionModel.from_pretrained("/path/to/unet", torch_dtype=torch.float16,)
pipe = StableVideoDiffusionPipeline.from_pretrained(
pretrained_model_path,
unet=unet,
torch_dtype=torch.float16,
variant="fp16",
low_cpu_mem_usage=True
)
Funcionalidades
- Control granular sobre las dinámicas complejas en la síntesis de video.
- Condicionamiento del proceso de generación en las trayectorias de los objetos.
- Manipulación precisa de las trayectorias e interacciones de los objetos.
- Gestión de aparición y desaparición de objetos.
- Manejo de cambios de escala y consistencia a través de fotogramas.
Casos de uso
- Generación de videos con control preciso sobre las trayectorias de los objetos.
- Manipulación de interacciones complejas en la síntesis de video.
- Aplicaciones que requieren consistencia de objetos y cambios de escala a través de múltiples fotogramas.