BestWishYsh/Helios-Base
BestWishYsh
Texto a video
Helios-Base es un modelo de generación de video de 14B parámetros orientado a video largo en tiempo real. Genera videos de escala de minutos con buena coherencia temporal sin depender de estrategias habituales contra la deriva, y alcanza alrededor de 19,5 FPS de inferencia extremo a extremo en una sola GPU H100. Es el checkpoint de mayor calidad de la familia Helios, con v-prediction, CFG estándar y HeliosScheduler personalizado.
Como usar
Instalación y uso básico con Diffusers:
pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
"BestWishYsh/Helios-Base",
dtype=torch.bfloat16,
device_map="cuda"
)
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
Descarga con Hugging Face CLI:
pip install "huggingface_hub[cli]"
huggingface-cli download BestWishYSH/Helios-Base --local-dir BestWishYSH/Helios-Base
Ejemplo de inferencia texto-a-video con paralelismo de contexto en 4 GPU:
CUDA_VISIBLE_DEVICES=0,1,2,3 torchrun --nproc_per_node 4 infer_helios.py \
--enable_parallelism \
--cp_backend "ulysses" \
--base_model_path "BestWishYsh/Helios-Base" \
--transformer_path "BestWishYsh/Helios-Base" \
--sample_type "t2v" \
--num_frames 99 \
--fps 24 \
--prompt "A vibrant tropical fish swimming gracefully among colorful coral reefs in a clear, turquoise ocean." \
--guidance_scale 5.0 \
--output_folder "./output_helios/helios-base"
Ejemplo con SGLang-Diffusion:
sglang generate \
--model-path BestWishYsh/Helios-Base \
--prompt "A vibrant tropical fish swimming gracefully among colorful coral reefs in a clear, turquoise ocean." \
--negative-prompt "Bright tones, overexposed, static, blurred details, subtitles, worst quality, low quality" \
--height 384 \
--width 640 \
--num-frames 99 \
--num-inference-steps 50 \
--guidance-scale 5.0
Funcionalidades
- Generación texto-a-video, imagen-a-video, video-a-video e interacción.
- Arquitectura de 14B parámetros basada en difusión para síntesis de video largo.
- Genera por fragmentos autoregresivos de 33 fotogramas; se recomienda usar num_frames como múltiplo de 33.
- Rendimiento reportado de 19,5 FPS en una H100 y cerca de 10 FPS en una Ascend NPU.
- No requiere KV-cache, causal masking, atención dispersa/lineal, TinyVAE, cuantización ni otras técnicas estándar de aceleración para el rendimiento principal reportado.
- Admite paralelismo de contexto con Ulysses Attention, Ring Attention, Unified Attention y Ulysses Anything Attention.
- Compatible con Diffusers, vLLM-Omni y SGLang-Diffusion.
- Licencia Apache 2.0; formato Safetensors; idioma principal del repositorio: inglés.
Casos de uso
- Crear videos largos a partir de prompts de texto manteniendo coherencia temporal durante muchos fragmentos.
- Convertir una imagen inicial en video cuando se acepta que I2V puede rendir algo peor que T2V porque el entrenamiento principal fue texto-a-video.
- Transformar o extender clips existentes mediante video-a-video.
- Investigar inferencia de video generativo de alta velocidad en GPU H100, Ascend NPU o configuraciones multi-GPU.
- Integrar generación de video en pipelines con Diffusers, vLLM-Omni o SGLang-Diffusion.