Skywork/SkyReels-V2-T2V-14B-720P
Modelo de generación de video a partir de texto de la serie SkyReels V2, con 14B parámetros y salida recomendada a 720p. Está orientado a síntesis cinematográfica de alta resolución con buena adherencia a instrucciones, consistencia visual y calidad de movimiento. Forma parte de SkyReels V2, un sistema de generación de video que combina MLLM, preentrenamiento multietapa, aprendizaje por refuerzo, SFT de alta calidad y técnicas de Diffusion Forcing para mejorar videos largos y estilo de película.
Como usar
Instalación básica con Diffusers:
pip install -U diffusers transformers accelerate
Ejemplo con Diffusers:
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
"Skywork/SkyReels-V2-T2V-14B-720P",
dtype=torch.bfloat16,
device_map="cuda"
)
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
Uso desde el repositorio SkyReels-V2:
# clone the repository.
git clone https://github.com/SkyworkAI/SkyReels-V2
cd SkyReels-V2
# Install dependencies. Test environment uses Python 3.10.12.
pip install -r requirements.txt
Ejemplo de generación texto-a-video, adaptando el modelo a la variante 720P:
model_id=Skywork/SkyReels-V2-T2V-14B-720P
python3 generate_video.py \
--model_id ${model_id} \
--resolution 720P \
--num_frames 121 \
--guidance_scale 6.0 \
--shift 8.0 \
--fps 24 \
--prompt "A serene lake surrounded by towering mountains, with a few swans gracefully gliding across the water and sunlight dancing on the surface." \
--offload \
--teacache \
--use_ret_steps \
--teacache_thresh 0.3
Inferencia multi-GPU con xDiT USP:
model_id=Skywork/SkyReels-V2-T2V-14B-720P
torchrun --nproc_per_node=2 generate_video.py \
--model_id ${model_id} \
--resolution 720P \
--num_frames 121 \
--guidance_scale 6.0 \
--shift 8.0 \
--fps 24 \
--offload \
--prompt "A serene lake surrounded by towering mountains, with a few swans gracefully gliding across the water and sunlight dancing on the surface." \
--use_usp \
--seed 42
Parámetros recomendados para T2V: --guidance_scale 6.0, --shift 8.0, --fps 24, --num_frames 121 para 720P y --offload para reducir uso de VRAM. TeaCache puede acelerar la inferencia, con posible pérdida de calidad si se aumenta demasiado el umbral.
Funcionalidades
- Generación texto-a-video con resolución recomendada de 720 x 1280 y 121 fotogramas.
- Arquitectura de la familia SkyReels V2 con enfoque en calidad cinematográfica, composición de plano, movimiento de cámara y coherencia temporal.
- Modelo de 14B parámetros publicado en formato Safetensors e integrado con Diffusers.
- Soporta inferencia local con opciones como offload a CPU, TeaCache, pasos de retención, semilla reproducible y configuración de FPS.
- Compatible con inferencia multi-GPU mediante xDiT USP para acelerar la generación.
- Puede utilizar un prompt enhancer basado en Qwen2.5-32B-Instruct para convertir prompts cortos en descripciones más detalladas.
- Evaluado en SkyReels-Bench y VBench; SkyReels-V2 reporta 83,9% de puntuación total y 84,7% de calidad en VBench frente a otros modelos abiertos de texto-a-video.
Casos de uso
- Crear clips de video a partir de descripciones textuales para prototipos audiovisuales, storyboards y material creativo.
- Generar escenas cinematográficas con instrucciones sobre composición, iluminación, sujetos, cámara y movimiento.
- Producir videos cortos de alta resolución para experimentación con modelos abiertos de texto-a-video.
- Evaluar prompts, semillas y configuraciones de inferencia en flujos locales o multi-GPU.
- Investigar generación de video con modelos abiertos de gran escala y comparar resultados frente a benchmarks como VBench.