alibaba-pai/Wan2.1-Fun-14B-InP
Modelo Wan2.1-Fun de 14B parámetros para generación de video a partir de texto e imágenes. Sus pesos ocupan aproximadamente 47 GB, están entrenados con múltiples resoluciones y admiten predicción con imagen inicial y final para controlar la transición del video.
Como usar
Uso recomendado: descargar los pesos de alibaba-pai/Wan2.1-Fun-14B-InP, colocarlos bajo models/Diffusion_Transformer/Wan2.1-Fun-14B-InP y ejecutar los ejemplos de Wan2.1-Fun/CogVideoX-Fun según el tipo de generación. La página indica que no hay snippet oficial de Hugging Face para la librería VideoX Fun.
# pull image
docker pull mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun
# enter image
docker run -it -p 7860:7860 --network host --gpus all --security-opt seccomp:unconfined --shm-size 200g mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun
# clone code
git clone https://github.com/aigc-apps/CogVideoX-Fun.git
# enter CogVideoX-Fun's dir
cd CogVideoX-Fun
# download weights
mkdir models/Diffusion_Transformer
mkdir models/Personalized_Model
# Please use the hugginface link or modelscope link to download the model.
# Wan
# https://huggingface.co/alibaba-pai/Wan2.1-Fun-14B-InP
# https://modelscope.cn/models/PAI/Wan2.1-Fun-14B-InP
Estructura esperada de pesos:
models/
├── Diffusion_Transformer/
│ ├── CogVideoX-Fun-V1.1-2b-InP/
│ ├── CogVideoX-Fun-V1.1-5b-InP/
│ ├── Wan2.1-Fun-14B-InP/
│ └── Wan2.1-Fun-1.3B-InP/
├── Personalized_Model/
│ └── your trained trainformer model / your trained lora model
Para ejecutar generación, se modifican parámetros como prompt, neg_prompt, guidance_scale, seed, validation_image_start y validation_image_end en los scripts de ejemplo; los resultados se guardan en carpetas samples/.
Funcionalidades
- Generación de video texto-a-video e imagen-a-video dentro del flujo Wan2.1-Fun.
- Modelo de 14B parámetros con pesos en formato Safetensors.
- Entrenamiento multirresolución para producir video en distintos tamaños de salida.
- Soporte para imagen inicial e imagen final en tareas de predicción de video.
- Integración con VideoX Fun, ComfyUI, Docker, scripts Python y una interfaz Gradio.
- Opciones de ahorro de VRAM: model_cpu_offload, model_cpu_offload_and_qfloat8 y sequential_cpu_offload.
- Licencia Apache 2.0.
Casos de uso
- Crear videos desde prompts de texto.
- Animar una imagen inicial hacia una imagen final indicada por el usuario.
- Generar contenido de video multirresolución con un modelo Wan2.1-Fun grande.
- Probar generación local mediante Docker, ComfyUI, scripts Python o interfaz Gradio.
- Experimentar con ahorro de memoria GPU en tarjetas de consumo usando offload a CPU o cuantización float8.