BestWishYsh/Helios-Base

BestWishYsh
Texto a video

Helios-Base es un modelo de generación de video de 14B parámetros orientado a video largo en tiempo real. Genera videos de escala de minutos con buena coherencia temporal sin depender de estrategias habituales contra la deriva, y alcanza alrededor de 19,5 FPS de inferencia extremo a extremo en una sola GPU H100. Es el checkpoint de mayor calidad de la familia Helios, con v-prediction, CFG estándar y HeliosScheduler personalizado.

Como usar

Instalación y uso básico con Diffusers:

pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
    "BestWishYsh/Helios-Base",
    dtype=torch.bfloat16,
    device_map="cuda"
)

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Descarga con Hugging Face CLI:

pip install "huggingface_hub[cli]"
huggingface-cli download BestWishYSH/Helios-Base --local-dir BestWishYSH/Helios-Base

Ejemplo de inferencia texto-a-video con paralelismo de contexto en 4 GPU:

CUDA_VISIBLE_DEVICES=0,1,2,3 torchrun --nproc_per_node 4 infer_helios.py \
  --enable_parallelism \
  --cp_backend "ulysses" \
  --base_model_path "BestWishYsh/Helios-Base" \
  --transformer_path "BestWishYsh/Helios-Base" \
  --sample_type "t2v" \
  --num_frames 99 \
  --fps 24 \
  --prompt "A vibrant tropical fish swimming gracefully among colorful coral reefs in a clear, turquoise ocean." \
  --guidance_scale 5.0 \
  --output_folder "./output_helios/helios-base"

Ejemplo con SGLang-Diffusion:

sglang generate \
  --model-path BestWishYsh/Helios-Base \
  --prompt "A vibrant tropical fish swimming gracefully among colorful coral reefs in a clear, turquoise ocean." \
  --negative-prompt "Bright tones, overexposed, static, blurred details, subtitles, worst quality, low quality" \
  --height 384 \
  --width 640 \
  --num-frames 99 \
  --num-inference-steps 50 \
  --guidance-scale 5.0

Funcionalidades

Generación texto-a-video, imagen-a-video, video-a-video e interacción.
Arquitectura de 14B parámetros basada en difusión para síntesis de video largo.
Genera por fragmentos autoregresivos de 33 fotogramas; se recomienda usar num_frames como múltiplo de 33.
Rendimiento reportado de 19,5 FPS en una H100 y cerca de 10 FPS en una Ascend NPU.
No requiere KV-cache, causal masking, atención dispersa/lineal, TinyVAE, cuantización ni otras técnicas estándar de aceleración para el rendimiento principal reportado.
Admite paralelismo de contexto con Ulysses Attention, Ring Attention, Unified Attention y Ulysses Anything Attention.
Compatible con Diffusers, vLLM-Omni y SGLang-Diffusion.
Licencia Apache 2.0; formato Safetensors; idioma principal del repositorio: inglés.

Casos de uso

Crear videos largos a partir de prompts de texto manteniendo coherencia temporal durante muchos fragmentos.
Convertir una imagen inicial en video cuando se acepta que I2V puede rendir algo peor que T2V porque el entrenamiento principal fue texto-a-video.
Transformar o extender clips existentes mediante video-a-video.
Investigar inferencia de video generativo de alta velocidad en GPU H100, Ascend NPU o configuraciones multi-GPU.
Integrar generación de video en pipelines con Diffusers, vLLM-Omni o SGLang-Diffusion.