Skywork/SkyReels-V2-DF-14B-720P

Skywork

Texto a video

SkyReels-V2-DF-14B-720P es un modelo abierto de generación de vídeo de 14B parámetros para resolución 720p basado en Diffusion Forcing. Está diseñado para generación autoregresiva de vídeos largos o de longitud potencialmente indefinida, con soporte para texto a vídeo e imagen a vídeo. La variante DF usa una arquitectura AutoRegressive Diffusion-Forcing para extender la generación a partir de fotogramas previos, buscando mejor coherencia temporal, seguimiento de instrucciones, calidad visual y dinámica de movimiento en escenas de estilo cinematográfico.

Como usar

Instalación básica del repositorio:
git clone https://github.com/SkyworkAI/SkyReels-V2
cd SkyReels-V2
pip install -r requirements.txt

Uso con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
    "Skywork/SkyReels-V2-DF-14B-720P",
    dtype=torch.bfloat16,
    device_map="cuda"
)

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Ejemplo de inferencia Diffusion Forcing para vídeo largo en una GPU, adaptando la variante a 720P:
model_id=Skywork/SkyReels-V2-DF-14B-720P

python3 generate_video_df.py \
  --model_id ${model_id} \
  --resolution 720P \
  --ar_step 0 \
  --base_num_frames 121 \
  --num_frames 257 \
  --overlap_history 17 \
  --prompt "A graceful white swan with a curved neck and delicate feathers swimming in a serene lake at dawn, its reflection perfectly mirrored in the still water as mist rises from the surface, with the swan occasionally dipping its head into the water to feed." \
  --addnoise_condition 20 \
  --offload \
  --teacache \
  --use_ret_steps \
  --teacache_thresh 0.3

Para imagen a vídeo, se añade --image ${image_path} y conviene usar un prompt descriptivo que incluya el contenido del primer fotograma. Para vídeos largos, el modelo recomienda ajustar --num_frames; por ejemplo, 257 para unos 10 s, 377 para 15 s, 737 para 30 s y 1457 para 60 s. El parámetro --addnoise_condition 20 ayuda a suavizar la generación larga; valores demasiado altos pueden reducir la consistencia. La inferencia asíncrona se activa con --ar_step 5 y normalmente usa --causal_block_size 5.

Funcionalidades

Generación de vídeo a partir de texto con salida recomendada de 720 x 1280 y 121 fotogramas para esta variante 720P.
Arquitectura Diffusion Forcing autoregresiva para generar vídeos largos mediante solapamiento de historial entre segmentos.
Soporte para tareas de texto a vídeo e imagen a vídeo en la variante Diffusion Forcing, añadiendo una imagen inicial cuando se usa I2V.
Modos de inferencia síncrono y asíncrono; el modo asíncrono puede mejorar el seguimiento de instrucciones y la consistencia visual, aunque es más lento.
Entrenamiento con MLLM, preentrenamiento multietapa, aprendizaje por refuerzo para calidad de movimiento y SFT de alta calidad a 540p y 720p.
Compatibilidad con inferencia multi-GPU mediante xDiT USP para acelerar la generación.
Opciones de reducción de VRAM como offload a CPU, ajuste de base_num_frames y Teacache.
Evaluado en SkyReels-Bench y VBench; SkyReels-V2 reporta 83,9% de puntuación total y 84,7% de calidad en VBench frente a otros modelos abiertos comparados.

Casos de uso

Crear vídeos cinematográficos largos desde prompts textuales, especialmente escenas narrativas que requieren continuidad entre segmentos.
Generar vídeos a partir de una imagen inicial y una descripción textual, manteniendo coherencia con el primer fotograma.
Prototipar contenido audiovisual de alta resolución para storyboards, escenas de producto, animaciones conceptuales o previsualización creativa.
Evaluar investigación en generación de vídeo abierto, Diffusion Forcing, consistencia temporal y seguimiento de instrucciones en modelos de vídeo.
Ejecutar inferencia multi-GPU para producción experimental de clips más largos o de mayor resolución.