alibaba-pai/Wan2.1-Fun-V1.1-1.3B-Control-Camera

alibaba-pai

Texto a video

Modelo Wan2.1-Fun V1.1 de 1.3B parámetros orientado a generación de video con control de cámara. Está diseñado para predecir videos multirresolución a 512, 768 y 1024 px, entrenado con secuencias de 81 fotogramas a 16 fps, y admite prompts multilingües. La variante Control-Camera permite dirigir movimientos de cámara como paneo hacia arriba, abajo, izquierda, derecha y combinaciones de movimientos.

Como usar

Uso recomendado mediante VideoX Fun o ComfyUI. La página no incluye un snippet específico de Hugging Face para esta librería, pero sí muestra comandos de arranque con Docker y preparación del repositorio:
# pull image
docker pull mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun

# enter image
docker run -it -p 7860:7860 --network host --gpus all --security-opt seccomp:unconfined --shm-size 200g mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun

# clone code
git clone https://github.com/aigc-apps/VideoX-Fun.git

# enter VideoX-Fun's dir
cd VideoX-Fun

# download weights
mkdir models/Diffusion_Transformer
mkdir models/Personalized_Model

Para uso local, se descargan los pesos correspondientes y se colocan en models/Diffusion_Transformer/ o en ComfyUI/models/Fun_Models/. La documentación recomienda elegir modos de ahorro de VRAM como model_cpu_offload, model_cpu_offload_and_qfloat8 o sequential_cpu_offload según la memoria disponible. Para esta variante Control-Camera, el flujo principal es generar videos controlando trayectorias o movimientos de cámara desde los ejemplos de Wan2.1-Fun/VideoX-Fun.

Funcionalidades

Generación de video con control explícito de movimientos de cámara.
Soporte para resoluciones 512, 768 y 1024.
Entrenado para clips de 81 fotogramas a 16 fps.
Modelo de 1.3B parámetros con pesos de aproximadamente 19 GB.
Compatible con flujos de VideoX Fun, Docker, Aliyun DSW, ComfyUI y ejecución local.
Licencia Apache 2.0.
Etiquetas principales: text-to-video, i2v, video-generation, VideoX Fun, Diffusers, Safetensors.

Casos de uso

Crear videos a partir de prompts con movimiento de cámara controlado.
Generar clips con paneos direccionales: arriba, abajo, izquierda o derecha.
Prototipar escenas de video donde la trayectoria de cámara es parte central del resultado.
Usar ComfyUI o VideoX Fun para flujos locales de generación de video con pesos Wan2.1-Fun.
Experimentar con generación de video multirresolución en GPUs NVIDIA compatibles.