alibaba-pai/Wan2.1-Fun-V1.1-1.3B-InP
Wan2.1-Fun-V1.1-1.3B-InP es un modelo de generación de video de la familia Wan2.1-Fun orientado a texto a video e imagen a video. Usa pesos InP de 1.3B entrenados con múltiples resoluciones y admite predicción con imagen inicial y final para controlar el comienzo y el cierre del video. El modelo se distribuye en formato Safetensors, ocupa aproximadamente 19 GB y está publicado bajo licencia Apache 2.0.
Como usar
No hay snippets oficiales específicos disponibles en Hugging Face para la librería VideoX-Fun. La página recomienda revisar los archivos del repositorio y la documentación de VideoX-Fun.
Ejemplo de arranque con Docker indicado en la tarjeta:
# pull image
docker pull mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun
# enter image
docker run -it -p 7860:7860 --network host --gpus all --security-opt seccomp:unconfined --shm-size 200g mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun
# clone code
git clone https://github.com/aigc-apps/VideoX-Fun.git
# enter VideoX-Fun's dir
cd VideoX-Fun
# download weights
mkdir models/Diffusion_Transformer
mkdir models/Personalized_Model
Para uso local, se deben descargar los pesos y colocarlos en models/Diffusion_Transformer/Wan2.1-Fun-V1.1-1.3B-InP/ o, si se usa ComfyUI, en ComfyUI/models/Fun_Models/Wan2.1-Fun-V1.1-1.3B-InP/. Después se selecciona el script o interfaz correspondiente de VideoX-Fun, ajustando parámetros como prompt, neg_prompt, guidance_scale, seed e imágenes de validación cuando se haga imagen a video.
Funcionalidades
- Generación de video a partir de texto e imagen.
- Soporte para predicción con imagen inicial y final.
- Entrenamiento multirresolución para flujos de video de distintas escalas.
- Integración prevista con VideoX-Fun y flujos de ComfyUI.
- Modelo más ligero de la colección V1.1 frente a la variante de 14B.
- Compatible con ejecución local mediante scripts Python, interfaz Gradio o Docker.
Casos de uso
- Crear videos cortos a partir de prompts textuales.
- Generar videos condicionados por una imagen inicial y una imagen final.
- Prototipar flujos de texto a video o imagen a video con VideoX-Fun.
- Ejecutar generación de video en entornos locales, Docker, Aliyun DSW o ComfyUI.
- Experimentar con una variante Wan2.1-Fun de menor tamaño que la edición de 14B.