BestWishYsh/Helios-Mid
BestWishYsh
Texto a video
Helios-Mid es un checkpoint intermedio de la familia Helios para generación de video en tiempo real. Está orientado a texto a video, imagen a video, video a video e interacción, usando la misma arquitectura de Helios-Base y Helios-Distilled. Según la tarjeta del modelo, emplea v-prediction, CFG-Zero* y un HeliosScheduler personalizado, con una tubería de muestreo multiescala más agresiva para mejorar la eficiencia. Al ser un checkpoint intermedio de la destilación de Helios-Base hacia Helios-Distilled, puede ofrecer menor calidad que Helios-Base.
Como usar
Instalación y uso básico con Diffusers:
pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("BestWishYsh/Helios-Mid", dtype=torch.bfloat16, device_map="cuda")
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
Descarga con Hugging Face CLI:
pip install "huggingface_hub[cli]"
huggingface-cli download BestWishYSH/Helios-Mid --local-dir BestWishYSH/Helios-Mid
Ejemplo de inferencia con vLLM-Omni para Helios-Mid:
python examples/offline_inference/helios/end2end.py \
--model ./Helios-Mid --sample-type t2v \
--prompt "A vibrant tropical fish swimming gracefully among colorful coral reefs in a clear, turquoise ocean. The fish has bright blue and yellow scales with a small, distinctive orange spot on its side, its fins moving fluidly. The coral reefs are alive with a variety of marine life, including small schools of colorful fish and sea turtles gliding by. The water is crystal clear, allowing for a view of the sandy ocean floor below. The reef itself is adorned with a mix of hard and soft corals in shades of red, orange, and green. The photo captures the fish from a slightly elevated angle, emphasizing its lively movements and the vivid colors of its surroundings. A close-up shot with dynamic movement." \
--guidance-scale 5.0 --is-enable-stage2 \
--pyramid-num-inference-steps-list 20 20 20 \
--num-frames 99 \
--use-cfg-zero-star --use-zero-init --zero-steps 1 \
--output helios_t2v_mid.mp4
Funcionalidades
- Generación de video a partir de texto con soporte Diffusers, vLLM-Omni y SGLang-Diffusion.
- Soporte declarado para T2V, I2V, V2V e interacción.
- Modelo de 14B parámetros dentro de la familia Helios para video largo en tiempo real.
- Generación autorregresiva en bloques de 33 fotogramas; se recomienda usar `num_frames` como múltiplo de 33.
- Compatibilidad con paralelismo de contexto en varias GPU mediante Ulysses, Ring, Unified y Ulysses Anything Attention.
- Soporte de descarga desde Hugging Face y ModelScope.
- Licencia Apache 2.0.
Casos de uso
- Crear videos largos coherentes a partir de prompts de texto.
- Generar variaciones de video condicionadas por una imagen inicial.
- Transformar o continuar videos existentes mediante prompts.
- Experimentar con pipelines de inferencia de video en Diffusers, vLLM-Omni o SGLang-Diffusion.
- Evaluar un checkpoint intermedio eficiente entre Helios-Base y Helios-Distilled.