FastVideo/FastWan2.2-TI2V-5B-FullAttn-Diffusers

FastVideo

Texto a video

Modelo de generación de video texto-a-video e imagen/texto-a-video basado en Wan2.2-TI2V-5B-Diffusers y afinado por FastVideo. Está diseñado para inferencia rápida de video con difusión en solo 3 pasos, usando destilación DMD y atención completa en esta variante. Fue entrenado para producir videos de alta calidad a 121 fotogramas y resolución 704x1280, aunque admite otras resoluciones con posible degradación de calidad.

Como usar

Instalación y uso básico con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("FastVideo/FastWan2.2-TI2V-5B-FullAttn-Diffusers", dtype=torch.bfloat16, device_map="cuda")

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Ejemplo de inferencia con FastVideo:
num_gpus=1
export FASTVIDEO_ATTENTION_BACKEND=FLASH_ATTN
export MODEL_BASE=FastVideo/FastWan2.2-TI2V-5B-Full-Diffusers
# export MODEL_BASE=hunyuanvideo-community/HunyuanVideo

# You can either use --prompt or --prompt-txt, but not both.
fastvideo generate \
  --model-path $MODEL_BASE \
  --sp-size $num_gpus \
  --tp-size 1 \
  --num-gpus $num_gpus \
  --height 704 \
  --width 1280 \
  --num-frames 121 \
  --num-inference-steps 3 \
  --fps 24 \
  --prompt-txt assets/prompt.txt \
  --negative-prompt "Bright tones, overexposed, static, blurred details, subtitles, style, works, paintings, images, static, overall gray, worst quality, low quality, JPEG compression residue, ugly, incomplete, extra fingers, poorly drawn hands, poorly drawn faces, deformed, disfigured, misshapen limbs, fused fingers, still picture, messy background, three legs, many people in the background, walking backwards" \
  --seed 1024 \
  --output-path outputs_video_dmd/ \
  --dmd-denoising-steps "1000,757,522"

Funcionalidades

Generación de video con inferencia eficiente en 3 pasos.
Basado en Wan-AI/Wan2.2-TI2V-5B-Diffusers.
Entrenado para videos de 121 fotogramas a 704x1280.
Compatible con Diffusers y pesos Safetensors.
Usa la clase WanDMDPipeline según la ficha del modelo.
Licencia Apache 2.0.
El entrenamiento de esta versión se realizó con DMD y simulación forward sin datos para el generador.
Incluye scripts de ajuste fino e inferencia en el repositorio FastVideo.

Casos de uso

Generación rápida de clips de video a partir de prompts de texto.
Experimentación con modelos de difusión de video destilados.
Investigación en atención dispersa, DMD y reducción de pasos de difusión.
Prototipado local de generación de video en GPUs como H100, RTX 4090 y entornos compatibles con FastVideo.
Producción de videos de alta resolución con 121 fotogramas y 24 fps.