BestWishYsh/Helios-Mid

BestWishYsh

Texto a video

Helios-Mid es un checkpoint intermedio de la familia Helios para generación de video en tiempo real. Está orientado a texto a video, imagen a video, video a video e interacción, usando la misma arquitectura de Helios-Base y Helios-Distilled. Según la tarjeta del modelo, emplea v-prediction, CFG-Zero* y un HeliosScheduler personalizado, con una tubería de muestreo multiescala más agresiva para mejorar la eficiencia. Al ser un checkpoint intermedio de la destilación de Helios-Base hacia Helios-Distilled, puede ofrecer menor calidad que Helios-Base.

Como usar

Instalación y uso básico con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("BestWishYsh/Helios-Mid", dtype=torch.bfloat16, device_map="cuda")

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Descarga con Hugging Face CLI:
pip install "huggingface_hub[cli]"
huggingface-cli download BestWishYSH/Helios-Mid --local-dir BestWishYSH/Helios-Mid

Ejemplo de inferencia con vLLM-Omni para Helios-Mid:
python examples/offline_inference/helios/end2end.py \
  --model ./Helios-Mid --sample-type t2v \
  --prompt "A vibrant tropical fish swimming gracefully among colorful coral reefs in a clear, turquoise ocean. The fish has bright blue and yellow scales with a small, distinctive orange spot on its side, its fins moving fluidly. The coral reefs are alive with a variety of marine life, including small schools of colorful fish and sea turtles gliding by. The water is crystal clear, allowing for a view of the sandy ocean floor below. The reef itself is adorned with a mix of hard and soft corals in shades of red, orange, and green. The photo captures the fish from a slightly elevated angle, emphasizing its lively movements and the vivid colors of its surroundings. A close-up shot with dynamic movement." \
  --guidance-scale 5.0 --is-enable-stage2 \
  --pyramid-num-inference-steps-list 20 20 20 \
  --num-frames 99 \
  --use-cfg-zero-star --use-zero-init --zero-steps 1 \
  --output helios_t2v_mid.mp4

Funcionalidades

Generación de video a partir de texto con soporte Diffusers, vLLM-Omni y SGLang-Diffusion.
Soporte declarado para T2V, I2V, V2V e interacción.
Modelo de 14B parámetros dentro de la familia Helios para video largo en tiempo real.
Generación autorregresiva en bloques de 33 fotogramas; se recomienda usar `num_frames` como múltiplo de 33.
Compatibilidad con paralelismo de contexto en varias GPU mediante Ulysses, Ring, Unified y Ulysses Anything Attention.
Soporte de descarga desde Hugging Face y ModelScope.
Licencia Apache 2.0.

Casos de uso

Crear videos largos coherentes a partir de prompts de texto.
Generar variaciones de video condicionadas por una imagen inicial.
Transformar o continuar videos existentes mediante prompts.
Experimentar con pipelines de inferencia de video en Diffusers, vLLM-Omni o SGLang-Diffusion.
Evaluar un checkpoint intermedio eficiente entre Helios-Base y Helios-Distilled.