alibaba-pai/Wan2.1-Fun-14B-InP

alibaba-pai

Texto a video

Modelo Wan2.1-Fun de 14B parámetros para generación de video a partir de texto e imágenes. Sus pesos ocupan aproximadamente 47 GB, están entrenados con múltiples resoluciones y admiten predicción con imagen inicial y final para controlar la transición del video.

Como usar

Uso recomendado: descargar los pesos de alibaba-pai/Wan2.1-Fun-14B-InP, colocarlos bajo models/Diffusion_Transformer/Wan2.1-Fun-14B-InP y ejecutar los ejemplos de Wan2.1-Fun/CogVideoX-Fun según el tipo de generación. La página indica que no hay snippet oficial de Hugging Face para la librería VideoX Fun.
# pull image
docker pull mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun

# enter image
docker run -it -p 7860:7860 --network host --gpus all --security-opt seccomp:unconfined --shm-size 200g mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun

# clone code
git clone https://github.com/aigc-apps/CogVideoX-Fun.git

# enter CogVideoX-Fun's dir
cd CogVideoX-Fun

# download weights
mkdir models/Diffusion_Transformer
mkdir models/Personalized_Model
# Please use the hugginface link or modelscope link to download the model.
# Wan
# https://huggingface.co/alibaba-pai/Wan2.1-Fun-14B-InP
# https://modelscope.cn/models/PAI/Wan2.1-Fun-14B-InP

Estructura esperada de pesos:
models/
├── Diffusion_Transformer/
│   ├── CogVideoX-Fun-V1.1-2b-InP/
│   ├── CogVideoX-Fun-V1.1-5b-InP/
│   ├── Wan2.1-Fun-14B-InP/
│   └── Wan2.1-Fun-1.3B-InP/
├── Personalized_Model/
│   └── your trained trainformer model / your trained lora model

Para ejecutar generación, se modifican parámetros como prompt, neg_prompt, guidance_scale, seed, validation_image_start y validation_image_end en los scripts de ejemplo; los resultados se guardan en carpetas samples/.

Funcionalidades

Generación de video texto-a-video e imagen-a-video dentro del flujo Wan2.1-Fun.
Modelo de 14B parámetros con pesos en formato Safetensors.
Entrenamiento multirresolución para producir video en distintos tamaños de salida.
Soporte para imagen inicial e imagen final en tareas de predicción de video.
Integración con VideoX Fun, ComfyUI, Docker, scripts Python y una interfaz Gradio.
Opciones de ahorro de VRAM: model_cpu_offload, model_cpu_offload_and_qfloat8 y sequential_cpu_offload.
Licencia Apache 2.0.

Casos de uso

Crear videos desde prompts de texto.
Animar una imagen inicial hacia una imagen final indicada por el usuario.
Generar contenido de video multirresolución con un modelo Wan2.1-Fun grande.
Probar generación local mediante Docker, ComfyUI, scripts Python o interfaz Gradio.
Experimentar con ahorro de memoria GPU en tarjetas de consumo usando offload a CPU o cuantización float8.