Skywork/SkyReels-V2-DF-1.3B-540P-Diffusers
Skywork
Texto a video
SkyReels-V2-DF-1.3B-540P-Diffusers es un modelo abierto de generación de video basado en Diffusion Forcing para crear videos 540P desde texto y, según la configuración, extender la generación a secuencias largas. Usa una arquitectura autoregresiva de difusión forzada para continuar el video a partir de segmentos previos, con soporte en Diffusers y un consumo aproximado de 14,7 GB de VRAM pico para generación 540P con el modelo 1.3B.
Como usar
Instalación básica con Diffusers:
pip install -U diffusers transformers accelerate
Ejemplo simple con Diffusers:
import torch
from diffusers import DiffusionPipeline
# cambiar a "mps" para dispositivos Apple
pipe = DiffusionPipeline.from_pretrained(
"Skywork/SkyReels-V2-DF-1.3B-540P-Diffusers",
dtype=torch.bfloat16,
device_map="cuda"
)
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
Uso recomendado con SkyReelsV2DiffusionForcingPipeline:
# pip install ftfy
import torch
from diffusers import AutoModel, SkyReelsV2DiffusionForcingPipeline, UniPCMultistepScheduler
from diffusers.utils import export_to_video
model_id = "Skywork/SkyReels-V2-DF-1.3B-540P-Diffusers"
vae = AutoModel.from_pretrained(model_id, subfolder="vae", torch_dtype=torch.float32)
pipeline = SkyReelsV2DiffusionForcingPipeline.from_pretrained(
model_id,
vae=vae,
torch_dtype=torch.bfloat16
)
flow_shift = 8.0 # 8.0 para T2V, 5.0 para I2V
pipeline.scheduler = UniPCMultistepScheduler.from_config(
pipeline.scheduler.config,
flow_shift=flow_shift
)
pipeline = pipeline.to("cuda")
prompt = "A cat and a dog baking a cake together in a kitchen. The cat is carefully measuring flour, while the dog is stirring the batter with a wooden spoon. The kitchen is cozy, with sunlight streaming through the window."
output = pipeline(
prompt=prompt,
num_inference_steps=30,
height=544,
width=960,
num_frames=97,
base_num_frames=97,
ar_step=5,
causal_block_size=5,
overlap_history=None,
addnoise_condition=20,
).frames[0]
export_to_video(output, "T2V.mp4", fps=24, quality=8)
Instalación desde el repositorio:
git clone https://github.com/SkyworkAI/SkyReels-V2
cd SkyReels-V2
pip install -r requirements.txt
Ejemplo de inferencia Diffusion Forcing para video largo:
model_id=Skywork/SkyReels-V2-DF-14B-540P
python3 generate_video_df.py \
--model_id ${model_id} \
--resolution 540P \
--ar_step 5 \
--causal_block_size 5 \
--base_num_frames 97 \
--num_frames 737 \
--overlap_history 17 \
--prompt "A graceful white swan with a curved neck and delicate feathers swimming in a serene lake at dawn, its reflection perfectly mirrored in the still water as mist rises from the surface, with the swan occasionally dipping its head into the water to feed." \
--addnoise_condition 20 \
--offload
Funcionalidades
- Generación de video a partir de texto en resolución recomendada 544 x 960 con 97 fotogramas.
- Integración con Hugging Face Diffusers mediante SkyReelsV2DiffusionForcingPipeline.
- Arquitectura Diffusion Forcing para videos largos y generación autoregresiva por segmentos.
- Inferencia síncrona y asíncrona mediante parámetros como ar_step, causal_block_size y overlap_history.
- Soporte para generación de larga duración ajustando num_frames, con ejemplos para 10, 15, 30 y 60 segundos.
- Compatibilidad con xDiT USP para inferencia multi-GPU.
- Parámetros específicos para mejorar continuidad, como addnoise_condition y solapamiento de historial.
- Basado en la familia SkyReels-V2, evaluada en adherencia a instrucciones, consistencia, calidad visual y movimiento.
Casos de uso
- Crear clips de video 540P a partir de prompts descriptivos.
- Generar videos largos mediante continuación autoregresiva por bloques.
- Probar investigación en Diffusion Forcing aplicada a síntesis de video.
- Producir escenas cinematográficas con mayor continuidad temporal que modelos de clip corto.
- Ejecutar experimentos locales de texto a video con Diffusers en GPU CUDA.
- Evaluar configuraciones síncronas y asíncronas para balancear duración, consistencia y velocidad.