alibaba-pai/Wan2.1-Fun-V1.1-1.3B-InP

alibaba-pai

Texto a video

Wan2.1-Fun-V1.1-1.3B-InP es un modelo de generación de video de la familia Wan2.1-Fun orientado a texto a video e imagen a video. Usa pesos InP de 1.3B entrenados con múltiples resoluciones y admite predicción con imagen inicial y final para controlar el comienzo y el cierre del video. El modelo se distribuye en formato Safetensors, ocupa aproximadamente 19 GB y está publicado bajo licencia Apache 2.0.

Como usar

No hay snippets oficiales específicos disponibles en Hugging Face para la librería VideoX-Fun. La página recomienda revisar los archivos del repositorio y la documentación de VideoX-Fun.
Ejemplo de arranque con Docker indicado en la tarjeta:
# pull image
docker pull mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun

# enter image
docker run -it -p 7860:7860 --network host --gpus all --security-opt seccomp:unconfined --shm-size 200g mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun

# clone code
git clone https://github.com/aigc-apps/VideoX-Fun.git

# enter VideoX-Fun's dir
cd VideoX-Fun

# download weights
mkdir models/Diffusion_Transformer
mkdir models/Personalized_Model

Para uso local, se deben descargar los pesos y colocarlos en models/Diffusion_Transformer/Wan2.1-Fun-V1.1-1.3B-InP/ o, si se usa ComfyUI, en ComfyUI/models/Fun_Models/Wan2.1-Fun-V1.1-1.3B-InP/. Después se selecciona el script o interfaz correspondiente de VideoX-Fun, ajustando parámetros como prompt, neg_prompt, guidance_scale, seed e imágenes de validación cuando se haga imagen a video.

Funcionalidades

Generación de video a partir de texto e imagen.
Soporte para predicción con imagen inicial y final.
Entrenamiento multirresolución para flujos de video de distintas escalas.
Integración prevista con VideoX-Fun y flujos de ComfyUI.
Modelo más ligero de la colección V1.1 frente a la variante de 14B.
Compatible con ejecución local mediante scripts Python, interfaz Gradio o Docker.

Casos de uso

Crear videos cortos a partir de prompts textuales.
Generar videos condicionados por una imagen inicial y una imagen final.
Prototipar flujos de texto a video o imagen a video con VideoX-Fun.
Ejecutar generación de video en entornos locales, Docker, Aliyun DSW o ComfyUI.
Experimentar con una variante Wan2.1-Fun de menor tamaño que la edición de 14B.