Runware/Wan2.2-TI2V-5B

Runware

Texto a video

Modelo generativo de video Wan2.2 de 5B parámetros para generación texto-a-video e imagen-a-video. Usa Wan2.2-VAE con alta compresión para producir video 720P a 24 FPS, incluyendo una resolución recomendada de 1280x704 o 704x1280 para TI2V. Está orientado a generación de video de alta definición eficiente, con soporte para ejecución en una sola GPU de consumo como RTX 4090 con al menos 24 GB de VRAM.

Como usar

Instalación del repositorio:
git clone https://github.com/Wan-Video/Wan2.2.git
cd Wan2.2

Instalación de dependencias:
# Ensure torch >= 2.4.0
pip install -r requirements.txt

Descarga con Hugging Face CLI:
pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.2-TI2V-5B --local-dir ./Wan2.2-TI2V-5B

Descarga con ModelScope:
pip install modelscope
modelscope download Wan-AI/Wan2.2-TI2V-5B --local_dir ./Wan2.2-TI2V-5B

Inferencia texto-a-video en una GPU:
python generate.py --task ti2v-5B --size 1280*704 --ckpt_dir ./Wan2.2-TI2V-5B --offload_model True --convert_model_dtype --t5_cpu --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage"

Inferencia imagen-a-video en una GPU:
python generate.py --task ti2v-5B --size 1280*704 --ckpt_dir ./Wan2.2-TI2V-5B --offload_model True --convert_model_dtype --t5_cpu --image examples/i2v_input.JPG --prompt "Summer beach vacation style, a white cat wearing sunglasses sits on a surfboard. The fluffy-furred feline gazes directly at the camera with a relaxed expression. Blurred beach scenery forms the background featuring crystal-clear waters, distant green hills, and a blue sky dotted with white clouds. The cat assumes a naturally relaxed posture, as if savoring the sea breeze and warm sunlight. A close-up shot highlights the feline's intricate details and the refreshing atmosphere of the seaside."

Inferencia multi-GPU con FSDP y DeepSpeed Ulysses:
torchrun --nproc_per_node=8 generate.py --task ti2v-5B --size 1280*704 --ckpt_dir ./Wan2.2-TI2V-5B --dit_fsdp --t5_fsdp --ulysses_size 8 --image examples/i2v_input.JPG --prompt "Summer beach vacation style, a white cat wearing sunglasses sits on a surfboard. The fluffy-furred feline gazes directly at the camera with a relaxed expression. Blurred beach scenery forms the background featuring crystal-clear waters, distant green hills, and a blue sky dotted with white clouds. The cat assumes a naturally relaxed posture, as if savoring the sea breeze and warm sunlight. A close-up shot highlights the feline's intricate details and the refreshing atmosphere of the seaside."

Notas de uso: si se pasa el parámetro --image, el flujo funciona como imagen-a-video; si no se pasa, genera texto-a-video. En GPU de 80 GB o más se pueden retirar --offload_model True, --convert_model_dtype y --t5_cpu para acelerar la ejecución.

Funcionalidades

Generación texto-a-video e imagen-a-video en un único modelo TI2V.
Soporte para video 720P a 24 FPS.
Wan2.2-VAE con compresión 16x16x4 y diseño de alta compresión para inferencia más eficiente.
Puede ejecutarse en una sola GPU de consumo, por ejemplo RTX 4090, usando offload y conversión de dtype.
Compatible con inferencia multi-GPU mediante FSDP y DeepSpeed Ulysses.
Forma parte de Wan2.2, una familia de modelos de video con mejoras en estética cinematográfica, movimiento complejo y datos de entrenamiento ampliados.

Casos de uso

Crear videos 720P a partir de prompts de texto.
Animar una imagen de entrada para producir video guiado por prompt.
Investigación académica en generación de video abierta y reproducible.
Prototipado de flujos creativos o industriales que requieren video generativo de alta definición en hardware accesible.
Evaluación de generación de movimiento, estética cinematográfica y composición en modelos de video.