TrackDiffusion_SVD_Stage1
pengxiang
Texto a video
TrackDiffusion es un marco novedoso de generación de video que permite el control detallado sobre dinámicas complejas en la síntesis de video al condicionar el proceso de generación en trayectorias de objetos. Este enfoque permite la manipulación precisa de las trayectorias e interacciones de objetos, abordando los desafíos de gestionar apariencias, desapariciones, cambios de escala y asegurando la consistencia entre los fotogramas.
Como usar
Proporcionamos los pesos para todo el unet, por lo que puede reemplazarlos en la pipeline de difusores, por ejemplo:
pretrained_model_path = "stabilityai/stable-video-diffusion-img2vid"
unet = UNetSpatioTemporalConditionModel.from_pretrained("/path/to/unet", torch_dtype=torch.float16,)
pipe = StableVideoDiffusionPipeline.from_pretrained(
pretrained_model_path,
unet=unet,
torch_dtype=torch.float16,
variant="fp16",
low_cpu_mem_usage=True)
Funcionalidades
- Control detallado de trayectorias de objetos
- Manipulación precisa de interacciones
- Gestión de apariciones y desapariciones
- Consistencia en fotogramas
Casos de uso
- Generación de videos a partir de trayectorias de objetos
- Manipulación de dinámicas de objetos en videos
- Creación de videos con control detallado sobre los cambios de escala y trayectoria