alibaba-pai/Wan2.1-Fun-1.3B-InP
Wan2.1-Fun-1.3B-InP es un modelo de generación de video basado en Wan2.1-Fun de Alibaba PAI, orientado a imagen a video y texto a video. Sus pesos ocupan 19 GB, están entrenados con múltiples resoluciones y admiten predicción con imagen inicial y final para controlar la transición del video. El modelo se distribuye en Hugging Face con formato Safetensors y licencia Apache 2.0.
Como usar
El modelo se usa descargando los pesos y colocándolos en la carpeta models/Diffusion_Transformer/Wan2.1-Fun-1.3B-InP/. La página no incluye snippet oficial específico de Hugging Face.js para VideoX Fun, pero sí muestra comandos de instalación y ejecución del repositorio.
# pull image
docker pull mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun
# enter image
docker run -it -p 7860:7860 --network host --gpus all --security-opt seccomp:unconfined --shm-size 200g mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun
# clone code
git clone https://github.com/aigc-apps/CogVideoX-Fun.git
# enter CogVideoX-Fun's dir
cd CogVideoX-Fun
# download weights
mkdir models/Diffusion_Transformer
mkdir models/Personalized_Model
Estructura recomendada de pesos:
models/
├── Diffusion_Transformer/
│ ├── CogVideoX-Fun-V1.1-2b-InP/
│ ├── CogVideoX-Fun-V1.1-5b-InP/
│ ├── Wan2.1-Fun-14B-InP
│ └── Wan2.1-Fun-1.3B-InP/
├── Personalized_Model/
│ └── your trained trainformer model / your trained lora model (for UI load)
Para generación, se descargan los pesos, se ajustan parámetros como prompt, neg_prompt, guidance_scale, seed e imágenes de validación si aplica, y se ejecutan los scripts de ejemplo o la interfaz Gradio del repositorio. En GPUs con poca memoria, la documentación recomienda usar modos de descarga a CPU o cuantización float8, aceptando una posible pérdida parcial de calidad.
Funcionalidades
- Generación de video a partir de texto e imagen dentro de la familia Wan2.1-Fun.
- Soporte para predicción con imagen de inicio e imagen final.
- Entrenamiento multirresolución para salidas de video en distintos tamaños.
- Pesos de 1.3B parámetros, más ligeros que la variante Wan2.1-Fun-14B-InP.
- Compatible con el flujo de trabajo VideoX Fun y con ejecución mediante scripts Python, Docker, ComfyUI o interfaz Gradio.
- Incluye modos de ahorro de VRAM como model_cpu_offload, model_cpu_offload_and_qfloat8 y sequential_cpu_offload.
Casos de uso
- Generar videos a partir de una descripción textual y una imagen de referencia.
- Crear transiciones de imagen a video usando una imagen inicial y una imagen final.
- Prototipar flujos de video generativo en ComfyUI, Gradio o scripts Python locales.
- Ejecutar generación de video con una variante Wan2.1-Fun más pequeña que la versión de 14B parámetros.
- Experimentar con generación de video multirresolución en entornos con GPU de consumo mediante offload a CPU.