Skywork/SkyReels-V2-T2V-14B-540P

Skywork

Texto a video

Modelo de generación de video a partir de texto de 14B parámetros de la serie SkyReels-V2, orientado a crear clips cinematográficos en 540P. Usa la arquitectura de SkyReels-V2, entrenada para mejorar la adherencia a instrucciones, la calidad visual, la consistencia temporal y el movimiento, con soporte para inferencia local mediante scripts del repositorio SkyReels-V2.

Como usar

Instalación:
# clone the repository.
git clone https://github.com/SkyworkAI/SkyReels-V2
cd SkyReels-V2

# Install dependencies. Test environment uses Python 3.10.12.
pip install -r requirements.txt

Inferencia texto-a-video en una GPU:
# run Text-to-Video Generation
model_id=Skywork/SkyReels-V2-T2V-14B-540P
python3 generate_video.py \
  --model_id ${model_id} \
  --resolution 540P \
  --num_frames 97 \
  --guidance_scale 6.0 \
  --shift 8.0 \
  --fps 24 \
  --prompt "A serene lake surrounded by towering mountains, with a few swans gracefully gliding across the water and sunlight dancing on the surface." \
  --offload \
  --teacache \
  --use_ret_steps \
  --teacache_thresh 0.3

Inferencia multi-GPU con xDiT USP:
# run Text-to-Video Generation
model_id=Skywork/SkyReels-V2-T2V-14B-540P
torchrun --nproc_per_node=2 generate_video.py \
  --model_id ${model_id} \
  --resolution 540P \
  --num_frames 97 \
  --guidance_scale 6.0 \
  --shift 8.0 \
  --fps 24 \
  --offload \
  --prompt "A serene lake surrounded by towering mountains, with a few swans gracefully gliding across the water and sunlight dancing on the surface." \
  --use_usp \
  --seed 42

Para este modelo T2V se recomiendan --guidance_scale 6.0, --shift 8.0, --fps 24, --num_frames 97 y --resolution 540P. El uso de --offload ayuda a reducir VRAM. La página indica que generar video 540P con el modelo 14B requiere aproximadamente 43.4 GB de VRAM pico. El potenciador de prompts puede ejecutarse aparte:
cd skyreels_v2_infer/pipelines
python3 prompt_enhancer.py --prompt "A serene lake surrounded by towering mountains, with a few swans gracefully gliding across the water and sunlight dancing on the surface."

Funcionalidades

Generación texto-a-video en resolución 540P con configuración recomendada de 544 x 960 y 97 fotogramas.
Modelo grande de 14B parámetros distribuido en formato Safetensors con tensores F32.
Diseñado para prompts descriptivos de escenas, movimiento, iluminación y composición cinematográfica.
Compatible con descarga desde Hugging Face y ModelScope dentro de la colección SkyReels-V2.
Soporta optimizaciones de inferencia como offload a CPU, TeaCache, retention steps y semillas reproducibles.
Puede ejecutarse en una sola GPU o en varias GPU mediante xDiT USP con torchrun.
Incluye un potenciador de prompts basado en Qwen2.5-32B-Instruct para expandir prompts cortos antes de generar video.
Según la evaluación VBench reportada para SkyReels-V2, alcanza 83.9% de puntuación total y 84.7% de calidad frente a otros modelos texto-a-video abiertos.

Casos de uso

Crear clips de video 540P a partir de prompts textuales detallados.
Prototipar escenas cinematográficas con descripciones de cámara, iluminación, sujetos y movimiento.
Generar material visual de demostración para investigación o evaluación de modelos texto-a-video abiertos.
Comparar calidad, consistencia y adherencia a instrucciones frente a otros modelos T2V como Wan2.1, HunyuanVideo, CogVideoX y OpenSora.
Ejecutar pruebas locales de generación con una GPU de alta memoria o acelerar inferencia con varias GPU.