IPostYellow/TurboWan2.1-T2V-1.3B-Diffusers

IPostYellow

Texto a video

Modelo de generación de video a partir de texto basado en Wan2.1-T2V-1.3B, convertido al formato Diffusers desde TurboWan2.1-T2V-1.3B-480P. Está orientado a crear clips de video mediante prompts textuales y puede ejecutarse localmente con Diffusers o servirse con sglang.

Como usar

Instalación y uso con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
    "IPostYellow/TurboWan2.1-T2V-1.3B-Diffusers",
    dtype=torch.bfloat16,
    device_map="cuda"
)

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Uso como servidor con sglang:
sglang serve \
  --model-path /path/TurboWan2.1-T2V-1.3B-Diffusers \
  --dit-cpu-offload false \
  --text-encoder-cpu-offload false \
  --image-encoder-cpu-offload false \
  --vae-cpu-offload false \
  --pin-cpu-memory false \
  --num-gpus 1

Enviar una solicitud de generación de video:
import requests

prompt = "A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about."

headers = {
    "Content-Type": "application/json",
}

requests.post(
    "http://localhost:3000/v1/videos",
    headers=headers,
    json={
        'prompt': prompt,
        'size': '832x480',
        'num_inference_steps': 4,
        'fps': 16,
        'num_frames': 81,
        'negative_prompt': None,
        'seed': 0,
    },
)

Funcionalidades

Generación texto-a-video con arquitectura de difusión.
Formato compatible con Hugging Face Diffusers.
Pesos en formato Safetensors.
Basado en Wan-AI/Wan2.1-T2V-1.3B y ajustado desde TurboDiffusion/TurboWan2.1-T2V-1.3B-480P.
Compatible con ejecución local en GPU CUDA y configuración de servicio vía sglang.
Licencia Apache 2.0.

Casos de uso

Crear videos cortos a partir de descripciones textuales detalladas.
Probar localmente un modelo Wan2.1 turbo convertido a Diffusers.
Servir generación texto-a-video mediante una API local con sglang.
Experimentar con clips 480p, pocos pasos de inferencia y parámetros como FPS, número de fotogramas y semilla.