chestnutlzj/Spark-Wan-4Steps

chestnutlzj

Texto a video

Modelo de texto a vídeo basado en Wan2.1-T2V-14B, con pesos destilados para generación en 4 pasos. Está orientado a acelerar la síntesis de vídeo manteniendo el flujo de uso de Diffusers y forma parte de la colección Spark-Wan.

Como usar

Instalación y uso con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("chestnutlzj/Spark-Wan-4Steps", dtype=torch.bfloat16, device_map="cuda")

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Funcionalidades

Generación de vídeo a partir de texto.
Implementación compatible con Diffusers.
Pesos en formato Safetensors.
Licencia Apache 2.0.
Modelo destilado de 4 pasos basado en Wan2.1 14B.
Código y pesos de destilación publicados por el proyecto Spark-Wan.

Casos de uso

Crear vídeos cortos a partir de prompts de texto.
Experimentar con generación de vídeo rápida usando un modelo de 4 pasos.
Probar pesos destilados de Wan2.1 14B en flujos locales con Diffusers.
Investigación y comparación de métodos de destilación para modelos de texto a vídeo.