Skywork/SkyReels-V2-T2V-14B-540P
Modelo de generación de video a partir de texto de 14B parámetros de la serie SkyReels-V2, orientado a crear clips cinematográficos en 540P. Usa la arquitectura de SkyReels-V2, entrenada para mejorar la adherencia a instrucciones, la calidad visual, la consistencia temporal y el movimiento, con soporte para inferencia local mediante scripts del repositorio SkyReels-V2.
Como usar
Instalación:
# clone the repository.
git clone https://github.com/SkyworkAI/SkyReels-V2
cd SkyReels-V2
# Install dependencies. Test environment uses Python 3.10.12.
pip install -r requirements.txt
Inferencia texto-a-video en una GPU:
# run Text-to-Video Generation
model_id=Skywork/SkyReels-V2-T2V-14B-540P
python3 generate_video.py \
--model_id ${model_id} \
--resolution 540P \
--num_frames 97 \
--guidance_scale 6.0 \
--shift 8.0 \
--fps 24 \
--prompt "A serene lake surrounded by towering mountains, with a few swans gracefully gliding across the water and sunlight dancing on the surface." \
--offload \
--teacache \
--use_ret_steps \
--teacache_thresh 0.3
Inferencia multi-GPU con xDiT USP:
# run Text-to-Video Generation
model_id=Skywork/SkyReels-V2-T2V-14B-540P
torchrun --nproc_per_node=2 generate_video.py \
--model_id ${model_id} \
--resolution 540P \
--num_frames 97 \
--guidance_scale 6.0 \
--shift 8.0 \
--fps 24 \
--offload \
--prompt "A serene lake surrounded by towering mountains, with a few swans gracefully gliding across the water and sunlight dancing on the surface." \
--use_usp \
--seed 42
Para este modelo T2V se recomiendan --guidance_scale 6.0, --shift 8.0, --fps 24, --num_frames 97 y --resolution 540P. El uso de --offload ayuda a reducir VRAM. La página indica que generar video 540P con el modelo 14B requiere aproximadamente 43.4 GB de VRAM pico. El potenciador de prompts puede ejecutarse aparte:
cd skyreels_v2_infer/pipelines
python3 prompt_enhancer.py --prompt "A serene lake surrounded by towering mountains, with a few swans gracefully gliding across the water and sunlight dancing on the surface."
Funcionalidades
- Generación texto-a-video en resolución 540P con configuración recomendada de 544 x 960 y 97 fotogramas.
- Modelo grande de 14B parámetros distribuido en formato Safetensors con tensores F32.
- Diseñado para prompts descriptivos de escenas, movimiento, iluminación y composición cinematográfica.
- Compatible con descarga desde Hugging Face y ModelScope dentro de la colección SkyReels-V2.
- Soporta optimizaciones de inferencia como offload a CPU, TeaCache, retention steps y semillas reproducibles.
- Puede ejecutarse en una sola GPU o en varias GPU mediante xDiT USP con torchrun.
- Incluye un potenciador de prompts basado en Qwen2.5-32B-Instruct para expandir prompts cortos antes de generar video.
- Según la evaluación VBench reportada para SkyReels-V2, alcanza 83.9% de puntuación total y 84.7% de calidad frente a otros modelos texto-a-video abiertos.
Casos de uso
- Crear clips de video 540P a partir de prompts textuales detallados.
- Prototipar escenas cinematográficas con descripciones de cámara, iluminación, sujetos y movimiento.
- Generar material visual de demostración para investigación o evaluación de modelos texto-a-video abiertos.
- Comparar calidad, consistencia y adherencia a instrucciones frente a otros modelos T2V como Wan2.1, HunyuanVideo, CogVideoX y OpenSora.
- Ejecutar pruebas locales de generación con una GPU de alta memoria o acelerar inferencia con varias GPU.