FastVideo/FastWan2.1-T2V-1.3B-Diffusers

FastVideo

Texto a video

Modelo de generación de video a partir de texto basado en Wan-AI/Wan2.1-T2V-1.3B-Diffusers y ajustado por el equipo FastVideo con una estrategia Sparse-distill que combina DMD y VSA. Está diseñado para inferencia eficiente en 3 pasos y generación de videos de alta calidad a resolución 61×448×832, con soporte para otras resoluciones aunque la calidad puede degradarse.

Como usar

Instalación y uso básico con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("FastVideo/FastWan2.1-T2V-1.3B-Diffusers", dtype=torch.bfloat16, device_map="cuda")

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Ejemplo de inferencia con FastVideo y VSA:
# install FastVideo and VSA first
git clone https://github.com/hao-ai-lab/FastVideo
pip install -e .
cd csrc/attn
git submodule update --init --recursive
python setup_vsa.py install

num_gpus=1
export FASTVIDEO_ATTENTION_BACKEND=VIDEO_SPARSE_ATTN
export MODEL_BASE=FastVideo/FastWan2.1-T2V-1.3B-Diffusers
# export MODEL_BASE=hunyuanvideo-community/HunyuanVideo

# You can either use --prompt or --prompt-txt, but not both.
fastvideo generate \
  --model-path $MODEL_BASE \
  --sp-size $num_gpus \
  --tp-size 1 \
  --num-gpus $num_gpus \
  --height 480 \
  --width 848 \
  --num-frames 81 \
  --num-inference-steps 3 \
  --fps 16 \
  --prompt-txt assets/prompt.txt \
  --negative-prompt "Bright tones, overexposed, static, blurred details, subtitles, style, works, paintings, images, static, overall gray, worst quality, low quality, JPEG compression residue, ugly, incomplete, extra fingers, poorly drawn hands, poorly drawn faces, deformed, disfigured, misshapen limbs, fused fingers, still picture, messy background, three legs, many people in the background, walking backwards" \
  --seed 1024 \
  --output-path outputs_video_dmd/ \
  --VSA-sparsity 0.8 \
  --dmd-denoising-steps "1000,757,522"

Funcionalidades

Generación texto-a-video con Diffusers.
Inferencia eficiente en 3 pasos.
Hasta 16 FPS en una sola GPU H100 según la tarjeta del modelo.
Entrenado para resolución 61×448×832 y capaz de generar en otras resoluciones con posible pérdida de calidad.
Usa atención dispersa VSA con sparsity 0.8 para reducir cómputo de atención.
Ajustado sobre Wan-AI/Wan2.1-T2V-1.3B-Diffusers usando el dataset sintético FastVideo/Wan-Syn_77x448x832_600k.
Pesos en formato Safetensors y licencia Apache 2.0.
No aparece desplegado en proveedores de inferencia de Hugging Face en la página proporcionada.

Casos de uso

Generar videos cortos a partir de prompts de texto con baja cantidad de pasos de difusión.
Investigación en difusión de video acelerada mediante destilación y atención dispersa entrenable.
Pruebas de inferencia texto-a-video en GPUs de alto rendimiento como H100, H200 o RTX 4090.
Experimentación con pipelines FastVideo, VSA y variantes Wan2.1 para generación eficiente de video.