Skywork/SkyReels-V1-Hunyuan-T2V
Skywork
Texto a video
SkyReels-V1-Hunyuan-T2V es un modelo abierto de generación de video a partir de texto centrado en personas. Está basado en HunyuanVideo y fue ajustado con decenas de millones de clips de cine, televisión y documentales para producir videos humanocéntricos con expresiones faciales, movimientos naturales, composición cinematográfica, posicionamiento de actores y ángulos de cámara de alta calidad.
Como usar
Instalación y ejemplo de uso con Diffusers:
pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("Skywork/SkyReels-V1-Hunyuan-T2V", dtype=torch.bfloat16, device_map="cuda")
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
La tarjeta también remite a una guía externa para detalles de inferencia y al repositorio SkyReels-V1 para el código de uso completo.
Funcionalidades
- Generación de video a partir de texto en formato Diffusers con pesos Safetensors.
- Modelo especializado en video humanocéntrico, ajustado desde HunyuanVideo.
- Rendimiento de estado del arte entre modelos abiertos de texto a video, con comparación declarada frente a modelos propietarios como Kling y Hailuo.
- Animación facial avanzada con 33 tipos de expresiones y más de 400 combinaciones naturales de movimiento.
- Estética cinematográfica entrenada con datos de cine y televisión de alta calidad.
- Canal propio de limpieza y anotación de datos con clasificación de expresiones, reconocimiento de acciones, comprensión espacial de personajes y análisis de escenas.
- Salida indicada por la tarjeta del modelo: resolución 544x960, 97 fotogramas y 24 FPS.
Casos de uso
- Crear videos cortos humanocéntricos a partir de prompts de texto.
- Generar escenas con personajes, expresiones faciales y movimientos corporales naturales.
- Producir material visual con estética cinematográfica para prototipos, storyboards o contenido creativo.
- Experimentar localmente con modelos abiertos de texto a video basados en Diffusers.
- Investigar fine-tuning y preentrenamiento multietapa para modelos de video centrados en personas.