TrackDiffusion_ModelScope
pengxiang
Texto a video
TrackDiffusion es un novedoso marco de generación de video que permite un control detallado sobre dinámicas complejas en la síntesis de video al condicionar el proceso de generación en trayectorias de objetos. Este enfoque permite la manipulación precisa de trayectorias e interacciones de objetos, abordando los desafíos de manejar la aparición, desaparición, cambios de escala y asegurando la consistencia a través de los fotogramas.
Como usar
Proporcionamos los pesos para todo el unet, por lo que puedes reemplazarlo en el pipeline de difusores, por ejemplo:
pretrained_model_path = "stabilityai/stable-video-diffusion-img2vid"
unet = UNetSpatioTemporalConditionModel.from_pretrained("/path/to/unet", torch_dtype=torch.float16,)
pipe = StableVideoDiffusionPipeline.from_pretrained(
pretrained_model_path,
unet=unet,
torch_dtype=torch.float16,
variant="fp16",
low_cpu_mem_usage=True)
Funcionalidades
- Control detallado de trayectorias de objetos
- Manejo de aparición y desaparición de objetos
- Soporte para cambios de escala
- Consistencia a través de los fotogramas
Casos de uso
- Generación de videos condicionados a trayectorias de objetos
- Manipulación precisa de interacciones en video
- Creación de videos con cambios de escala consistentes de objetos