alibaba-pai/Wan2.1-Fun-V1.1-1.3B-Control

alibaba-pai

Texto a video

Modelo de generación de vídeo de la familia Wan2.1-Fun V1.1 con 1.3B parámetros, orientado a vídeo controlado mediante condiciones como Canny, Depth, Pose y MLSD. Admite referencia de imagen junto con vídeo de control, control por trayectoria, predicción multirresolución a 512, 768 y 1024 píxeles, y fue entrenado para secuencias de 81 fotogramas a 16 fps. Está publicado en Hugging Face por Alibaba-PAI con licencia Apache 2.0.

Como usar

Puede usarse con VideoX-Fun, ComfyUI, Docker o scripts Python locales. La página de Hugging Face no incluye todavía snippet directo para la librería VideoX-Fun:
# No code snippets available yet for this library.
# To use this model, check the repository files and the library's documentation.
# Want to help? PRs adding snippets are welcome at:
# https://github.com/huggingface/huggingface.js

Flujo recomendado: descargar los pesos del modelo, colocarlos en la carpeta de modelos de VideoX-Fun o ComfyUI, seleccionar el modo de generación/control adecuado y ejecutar los scripts de predicción para vídeo controlado. Para ahorrar VRAM, el repositorio menciona modos como model_cpu_offload, model_cpu_offload_and_qfloat8 y sequential_cpu_offload.

Funcionalidades

Generación de vídeo condicionada por señales de control como Canny, Depth, Pose y MLSD.
Soporte para combinar imagen de referencia con condiciones de control.
Control por trayectoria para dirigir el movimiento del vídeo generado.
Predicción de vídeo en varias resoluciones: 512, 768 y 1024.
Entrenado para vídeos de 81 fotogramas a 16 fotogramas por segundo.
Soporte multilingüe en los prompts o predicciones.
Formato de pesos Safetensors y uso previsto con VideoX-Fun/Diffusers.
Tamaño aproximado de pesos: 19 GB.

Casos de uso

Generar vídeos a partir de un prompt y un vídeo de control extraído con Canny, Depth, Pose o MLSD.
Crear vídeos guiados por una imagen de referencia y una condición estructural adicional.
Prototipar animaciones donde la trayectoria o el movimiento deben seguir una guía concreta.
Producción experimental de vídeos cortos multirresolución con controles visuales explícitos.
Integración en flujos locales de ComfyUI o VideoX-Fun para generación de vídeo controlada.