Skywork/SkyReels-V2-DF-1.3B-540P

Skywork

Texto a video

Modelo generativo de vídeo de la serie SkyReels-V2 basado en Diffusion Forcing, orientado a generación text-to-video e image-to-video de larga duración a 540P. Esta variante de 1.3B parámetros usa una arquitectura autoregresiva de difusión para extender vídeos a partir de segmentos previos y está pensada para generación cinematográfica con mejor continuidad temporal, seguimiento de instrucciones y consistencia visual.

Como usar

Instalación básica:
git clone https://github.com/SkyworkAI/SkyReels-V2
cd SkyReels-V2
pip install -r requirements.txt

Ejemplo de inferencia Diffusion Forcing síncrona para vídeo largo a 540P:
model_id=Skywork/SkyReels-V2-DF-1.3B-540P
python3 generate_video_df.py \
  --model_id ${model_id} \
  --resolution 540P \
  --ar_step 0 \
  --base_num_frames 97 \
  --num_frames 257 \
  --overlap_history 17 \
  --prompt "A graceful white swan with a curved neck and delicate feathers swimming in a serene lake at dawn, its reflection perfectly mirrored in the still water as mist rises from the surface, with the swan occasionally dipping its head into the water to feed." \
  --addnoise_condition 20 \
  --offload \
  --teacache \
  --use_ret_steps \
  --teacache_thresh 0.3

Ejemplo de inferencia asíncrona para vídeos más largos:
model_id=Skywork/SkyReels-V2-DF-1.3B-540P
python3 generate_video_df.py \
  --model_id ${model_id} \
  --resolution 540P \
  --ar_step 5 \
  --causal_block_size 5 \
  --base_num_frames 97 \
  --num_frames 737 \
  --overlap_history 17 \
  --prompt "A graceful white swan with a curved neck and delicate feathers swimming in a serene lake at dawn, its reflection perfectly mirrored in the still water as mist rises from the surface, with the swan occasionally dipping its head into the water to feed." \
  --addnoise_condition 20 \
  --offload

Para image-to-video se añade --image ${image_path} y conviene usar un prompt descriptivo del primer fotograma. Para reducir VRAM se puede bajar --base_num_frames, por ejemplo a 77 o 57, con posible pérdida de calidad. Para generación multi-GPU se puede usar torchrun --nproc_per_node=2 junto con --use_usp.

Funcionalidades

Generación de vídeo a partir de texto y, añadiendo una imagen de entrada, image-to-video.
Arquitectura Diffusion Forcing para generar vídeos largos o de longitud extendida mediante solapamiento de historial entre segmentos.
Resolución recomendada de 544 x 960 con 97 fotogramas base para modelos 540P.
Inferencia síncrona y asíncrona; la inferencia asíncrona puede mejorar el seguimiento de instrucciones y la consistencia visual, aunque es más lenta.
Soporte de descarga en formato Safetensors; tamaño aproximado de 1B parámetros y tensores F32.
Uso aproximado de 14.7 GB de VRAM pico para generar vídeo 540P con el modelo 1.3B.
Compatibilidad con offload a CPU, TeaCache, retention steps y aceleración multi-GPU mediante xDiT USP.
Incluye parámetros específicos para vídeo largo como ar_step, base_num_frames, overlap_history, addnoise_condition y causal_block_size.

Casos de uso

Generación de vídeos cinematográficos largos desde prompts textuales.
Extensión autoregresiva de secuencias de vídeo manteniendo continuidad entre segmentos.
Image-to-video a partir de un fotograma inicial y una descripción textual.
Prototipado de escenas narrativas, story generation y clips con sujetos o movimientos complejos.
Investigación en modelos abiertos de vídeo generativo, Diffusion Forcing y evaluación de consistencia temporal.