Skywork/SkyReels-V2-DF-1.3B-540P
Modelo generativo de vídeo de la serie SkyReels-V2 basado en Diffusion Forcing, orientado a generación text-to-video e image-to-video de larga duración a 540P. Esta variante de 1.3B parámetros usa una arquitectura autoregresiva de difusión para extender vídeos a partir de segmentos previos y está pensada para generación cinematográfica con mejor continuidad temporal, seguimiento de instrucciones y consistencia visual.
Como usar
Instalación básica:
git clone https://github.com/SkyworkAI/SkyReels-V2
cd SkyReels-V2
pip install -r requirements.txt
Ejemplo de inferencia Diffusion Forcing síncrona para vídeo largo a 540P:
model_id=Skywork/SkyReels-V2-DF-1.3B-540P
python3 generate_video_df.py \
--model_id ${model_id} \
--resolution 540P \
--ar_step 0 \
--base_num_frames 97 \
--num_frames 257 \
--overlap_history 17 \
--prompt "A graceful white swan with a curved neck and delicate feathers swimming in a serene lake at dawn, its reflection perfectly mirrored in the still water as mist rises from the surface, with the swan occasionally dipping its head into the water to feed." \
--addnoise_condition 20 \
--offload \
--teacache \
--use_ret_steps \
--teacache_thresh 0.3
Ejemplo de inferencia asíncrona para vídeos más largos:
model_id=Skywork/SkyReels-V2-DF-1.3B-540P
python3 generate_video_df.py \
--model_id ${model_id} \
--resolution 540P \
--ar_step 5 \
--causal_block_size 5 \
--base_num_frames 97 \
--num_frames 737 \
--overlap_history 17 \
--prompt "A graceful white swan with a curved neck and delicate feathers swimming in a serene lake at dawn, its reflection perfectly mirrored in the still water as mist rises from the surface, with the swan occasionally dipping its head into the water to feed." \
--addnoise_condition 20 \
--offload
Para image-to-video se añade --image ${image_path} y conviene usar un prompt descriptivo del primer fotograma. Para reducir VRAM se puede bajar --base_num_frames, por ejemplo a 77 o 57, con posible pérdida de calidad. Para generación multi-GPU se puede usar torchrun --nproc_per_node=2 junto con --use_usp.
Funcionalidades
- Generación de vídeo a partir de texto y, añadiendo una imagen de entrada, image-to-video.
- Arquitectura Diffusion Forcing para generar vídeos largos o de longitud extendida mediante solapamiento de historial entre segmentos.
- Resolución recomendada de 544 x 960 con 97 fotogramas base para modelos 540P.
- Inferencia síncrona y asíncrona; la inferencia asíncrona puede mejorar el seguimiento de instrucciones y la consistencia visual, aunque es más lenta.
- Soporte de descarga en formato Safetensors; tamaño aproximado de 1B parámetros y tensores F32.
- Uso aproximado de 14.7 GB de VRAM pico para generar vídeo 540P con el modelo 1.3B.
- Compatibilidad con offload a CPU, TeaCache, retention steps y aceleración multi-GPU mediante xDiT USP.
- Incluye parámetros específicos para vídeo largo como ar_step, base_num_frames, overlap_history, addnoise_condition y causal_block_size.
Casos de uso
- Generación de vídeos cinematográficos largos desde prompts textuales.
- Extensión autoregresiva de secuencias de vídeo manteniendo continuidad entre segmentos.
- Image-to-video a partir de un fotograma inicial y una descripción textual.
- Prototipado de escenas narrativas, story generation y clips con sujetos o movimientos complejos.
- Investigación en modelos abiertos de vídeo generativo, Diffusion Forcing y evaluación de consistencia temporal.