Skywork/SkyReels-V2-DF-14B-720P
SkyReels-V2-DF-14B-720P es un modelo abierto de generación de vídeo de 14B parámetros para resolución 720p basado en Diffusion Forcing. Está diseñado para generación autoregresiva de vídeos largos o de longitud potencialmente indefinida, con soporte para texto a vídeo e imagen a vídeo. La variante DF usa una arquitectura AutoRegressive Diffusion-Forcing para extender la generación a partir de fotogramas previos, buscando mejor coherencia temporal, seguimiento de instrucciones, calidad visual y dinámica de movimiento en escenas de estilo cinematográfico.
Como usar
Instalación básica del repositorio:
git clone https://github.com/SkyworkAI/SkyReels-V2
cd SkyReels-V2
pip install -r requirements.txt
Uso con Diffusers:
pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
"Skywork/SkyReels-V2-DF-14B-720P",
dtype=torch.bfloat16,
device_map="cuda"
)
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
Ejemplo de inferencia Diffusion Forcing para vídeo largo en una GPU, adaptando la variante a 720P:
model_id=Skywork/SkyReels-V2-DF-14B-720P
python3 generate_video_df.py \
--model_id ${model_id} \
--resolution 720P \
--ar_step 0 \
--base_num_frames 121 \
--num_frames 257 \
--overlap_history 17 \
--prompt "A graceful white swan with a curved neck and delicate feathers swimming in a serene lake at dawn, its reflection perfectly mirrored in the still water as mist rises from the surface, with the swan occasionally dipping its head into the water to feed." \
--addnoise_condition 20 \
--offload \
--teacache \
--use_ret_steps \
--teacache_thresh 0.3
Para imagen a vídeo, se añade --image ${image_path} y conviene usar un prompt descriptivo que incluya el contenido del primer fotograma. Para vídeos largos, el modelo recomienda ajustar --num_frames; por ejemplo, 257 para unos 10 s, 377 para 15 s, 737 para 30 s y 1457 para 60 s. El parámetro --addnoise_condition 20 ayuda a suavizar la generación larga; valores demasiado altos pueden reducir la consistencia. La inferencia asíncrona se activa con --ar_step 5 y normalmente usa --causal_block_size 5.
Funcionalidades
- Generación de vídeo a partir de texto con salida recomendada de 720 x 1280 y 121 fotogramas para esta variante 720P.
- Arquitectura Diffusion Forcing autoregresiva para generar vídeos largos mediante solapamiento de historial entre segmentos.
- Soporte para tareas de texto a vídeo e imagen a vídeo en la variante Diffusion Forcing, añadiendo una imagen inicial cuando se usa I2V.
- Modos de inferencia síncrono y asíncrono; el modo asíncrono puede mejorar el seguimiento de instrucciones y la consistencia visual, aunque es más lento.
- Entrenamiento con MLLM, preentrenamiento multietapa, aprendizaje por refuerzo para calidad de movimiento y SFT de alta calidad a 540p y 720p.
- Compatibilidad con inferencia multi-GPU mediante xDiT USP para acelerar la generación.
- Opciones de reducción de VRAM como offload a CPU, ajuste de base_num_frames y Teacache.
- Evaluado en SkyReels-Bench y VBench; SkyReels-V2 reporta 83,9% de puntuación total y 84,7% de calidad en VBench frente a otros modelos abiertos comparados.
Casos de uso
- Crear vídeos cinematográficos largos desde prompts textuales, especialmente escenas narrativas que requieren continuidad entre segmentos.
- Generar vídeos a partir de una imagen inicial y una descripción textual, manteniendo coherencia con el primer fotograma.
- Prototipar contenido audiovisual de alta resolución para storyboards, escenas de producto, animaciones conceptuales o previsualización creativa.
- Evaluar investigación en generación de vídeo abierto, Diffusion Forcing, consistencia temporal y seguimiento de instrucciones en modelos de vídeo.
- Ejecutar inferencia multi-GPU para producción experimental de clips más largos o de mayor resolución.