Skywork/SkyReels-V2-T2V-14B-720P

Skywork

Texto a video

Modelo de generación de video a partir de texto de la serie SkyReels V2, con 14B parámetros y salida recomendada a 720p. Está orientado a síntesis cinematográfica de alta resolución con buena adherencia a instrucciones, consistencia visual y calidad de movimiento. Forma parte de SkyReels V2, un sistema de generación de video que combina MLLM, preentrenamiento multietapa, aprendizaje por refuerzo, SFT de alta calidad y técnicas de Diffusion Forcing para mejorar videos largos y estilo de película.

Como usar

Instalación básica con Diffusers:
pip install -U diffusers transformers accelerate

Ejemplo con Diffusers:
import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
    "Skywork/SkyReels-V2-T2V-14B-720P",
    dtype=torch.bfloat16,
    device_map="cuda"
)

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Uso desde el repositorio SkyReels-V2:
# clone the repository.
git clone https://github.com/SkyworkAI/SkyReels-V2
cd SkyReels-V2

# Install dependencies. Test environment uses Python 3.10.12.
pip install -r requirements.txt

Ejemplo de generación texto-a-video, adaptando el modelo a la variante 720P:
model_id=Skywork/SkyReels-V2-T2V-14B-720P
python3 generate_video.py \
  --model_id ${model_id} \
  --resolution 720P \
  --num_frames 121 \
  --guidance_scale 6.0 \
  --shift 8.0 \
  --fps 24 \
  --prompt "A serene lake surrounded by towering mountains, with a few swans gracefully gliding across the water and sunlight dancing on the surface." \
  --offload \
  --teacache \
  --use_ret_steps \
  --teacache_thresh 0.3

Inferencia multi-GPU con xDiT USP:
model_id=Skywork/SkyReels-V2-T2V-14B-720P
torchrun --nproc_per_node=2 generate_video.py \
  --model_id ${model_id} \
  --resolution 720P \
  --num_frames 121 \
  --guidance_scale 6.0 \
  --shift 8.0 \
  --fps 24 \
  --offload \
  --prompt "A serene lake surrounded by towering mountains, with a few swans gracefully gliding across the water and sunlight dancing on the surface." \
  --use_usp \
  --seed 42

Parámetros recomendados para T2V: --guidance_scale 6.0, --shift 8.0, --fps 24, --num_frames 121 para 720P y --offload para reducir uso de VRAM. TeaCache puede acelerar la inferencia, con posible pérdida de calidad si se aumenta demasiado el umbral.

Funcionalidades

Generación texto-a-video con resolución recomendada de 720 x 1280 y 121 fotogramas.
Arquitectura de la familia SkyReels V2 con enfoque en calidad cinematográfica, composición de plano, movimiento de cámara y coherencia temporal.
Modelo de 14B parámetros publicado en formato Safetensors e integrado con Diffusers.
Soporta inferencia local con opciones como offload a CPU, TeaCache, pasos de retención, semilla reproducible y configuración de FPS.
Compatible con inferencia multi-GPU mediante xDiT USP para acelerar la generación.
Puede utilizar un prompt enhancer basado en Qwen2.5-32B-Instruct para convertir prompts cortos en descripciones más detalladas.
Evaluado en SkyReels-Bench y VBench; SkyReels-V2 reporta 83,9% de puntuación total y 84,7% de calidad en VBench frente a otros modelos abiertos de texto-a-video.

Casos de uso

Crear clips de video a partir de descripciones textuales para prototipos audiovisuales, storyboards y material creativo.
Generar escenas cinematográficas con instrucciones sobre composición, iluminación, sujetos, cámara y movimiento.
Producir videos cortos de alta resolución para experimentación con modelos abiertos de texto-a-video.
Evaluar prompts, semillas y configuraciones de inferencia en flujos locales o multi-GPU.
Investigar generación de video con modelos abiertos de gran escala y comparar resultados frente a benchmarks como VBench.