alibaba-pai/Wan2.1-Fun-1.3B-InP

alibaba-pai

Texto a video

Wan2.1-Fun-1.3B-InP es un modelo de generación de video basado en Wan2.1-Fun de Alibaba PAI, orientado a imagen a video y texto a video. Sus pesos ocupan 19 GB, están entrenados con múltiples resoluciones y admiten predicción con imagen inicial y final para controlar la transición del video. El modelo se distribuye en Hugging Face con formato Safetensors y licencia Apache 2.0.

Como usar

El modelo se usa descargando los pesos y colocándolos en la carpeta models/Diffusion_Transformer/Wan2.1-Fun-1.3B-InP/. La página no incluye snippet oficial específico de Hugging Face.js para VideoX Fun, pero sí muestra comandos de instalación y ejecución del repositorio.
# pull image
docker pull mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun

# enter image
docker run -it -p 7860:7860 --network host --gpus all --security-opt seccomp:unconfined --shm-size 200g mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun

# clone code
git clone https://github.com/aigc-apps/CogVideoX-Fun.git

# enter CogVideoX-Fun's dir
cd CogVideoX-Fun

# download weights
mkdir models/Diffusion_Transformer
mkdir models/Personalized_Model

Estructura recomendada de pesos:
models/
├── Diffusion_Transformer/
│   ├── CogVideoX-Fun-V1.1-2b-InP/
│   ├── CogVideoX-Fun-V1.1-5b-InP/
│   ├── Wan2.1-Fun-14B-InP
│   └── Wan2.1-Fun-1.3B-InP/
├── Personalized_Model/
│   └── your trained trainformer model / your trained lora model (for UI load)

Para generación, se descargan los pesos, se ajustan parámetros como prompt, neg_prompt, guidance_scale, seed e imágenes de validación si aplica, y se ejecutan los scripts de ejemplo o la interfaz Gradio del repositorio. En GPUs con poca memoria, la documentación recomienda usar modos de descarga a CPU o cuantización float8, aceptando una posible pérdida parcial de calidad.

Funcionalidades

Generación de video a partir de texto e imagen dentro de la familia Wan2.1-Fun.
Soporte para predicción con imagen de inicio e imagen final.
Entrenamiento multirresolución para salidas de video en distintos tamaños.
Pesos de 1.3B parámetros, más ligeros que la variante Wan2.1-Fun-14B-InP.
Compatible con el flujo de trabajo VideoX Fun y con ejecución mediante scripts Python, Docker, ComfyUI o interfaz Gradio.
Incluye modos de ahorro de VRAM como model_cpu_offload, model_cpu_offload_and_qfloat8 y sequential_cpu_offload.

Casos de uso

Generar videos a partir de una descripción textual y una imagen de referencia.
Crear transiciones de imagen a video usando una imagen inicial y una imagen final.
Prototipar flujos de video generativo en ComfyUI, Gradio o scripts Python locales.
Ejecutar generación de video con una variante Wan2.1-Fun más pequeña que la versión de 14B parámetros.
Experimentar con generación de video multirresolución en entornos con GPU de consumo mediante offload a CPU.