Skywork/SkyReels-V1-Hunyuan-T2V

Skywork

Texto a video

SkyReels-V1-Hunyuan-T2V es un modelo abierto de generación de video a partir de texto centrado en personas. Está basado en HunyuanVideo y fue ajustado con decenas de millones de clips de cine, televisión y documentales para producir videos humanocéntricos con expresiones faciales, movimientos naturales, composición cinematográfica, posicionamiento de actores y ángulos de cámara de alta calidad.

Como usar

Instalación y ejemplo de uso con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("Skywork/SkyReels-V1-Hunyuan-T2V", dtype=torch.bfloat16, device_map="cuda")
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

La tarjeta también remite a una guía externa para detalles de inferencia y al repositorio SkyReels-V1 para el código de uso completo.

Funcionalidades

Generación de video a partir de texto en formato Diffusers con pesos Safetensors.
Modelo especializado en video humanocéntrico, ajustado desde HunyuanVideo.
Rendimiento de estado del arte entre modelos abiertos de texto a video, con comparación declarada frente a modelos propietarios como Kling y Hailuo.
Animación facial avanzada con 33 tipos de expresiones y más de 400 combinaciones naturales de movimiento.
Estética cinematográfica entrenada con datos de cine y televisión de alta calidad.
Canal propio de limpieza y anotación de datos con clasificación de expresiones, reconocimiento de acciones, comprensión espacial de personajes y análisis de escenas.
Salida indicada por la tarjeta del modelo: resolución 544x960, 97 fotogramas y 24 FPS.

Casos de uso

Crear videos cortos humanocéntricos a partir de prompts de texto.
Generar escenas con personajes, expresiones faciales y movimientos corporales naturales.
Producir material visual con estética cinematográfica para prototipos, storyboards o contenido creativo.
Experimentar localmente con modelos abiertos de texto a video basados en Diffusers.
Investigar fine-tuning y preentrenamiento multietapa para modelos de video centrados en personas.