oxide-lab/LTX-Video-0.9.5-diffusers
oxide-lab
Texto a video
Implementación de LTX-Video 0.9.5 para generación de video a partir de texto, empaquetada para Diffusers y con un codificador de texto T5-XXL cuantizado en GGUF Q5_K_M. El repositorio destaca una implementación nativa en Rust con Candle, orientada a inferencia local de alto rendimiento, especialmente en GPU NVIDIA con Flash Attention v2 y cuDNN. Incluye optimizaciones de memoria como cuantización GGUF para el encoder T5 y tiling/slicing del VAE para generar videos HD en GPUs de consumo.
Como usar
Instalación y uso con Diffusers:
pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("oxide-lab/LTX-Video-0.9.5-diffusers", dtype=torch.bfloat16, device_map="cuda")
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
Uso del encoder GGUF con llama-cpp-python:
# !pip install llama-cpp-python
from llama_cpp import Llama
llm = Llama.from_pretrained(
repo_id="oxide-lab/LTX-Video-0.9.5-diffusers",
filename="text_encoder_gguf/t5-v1_1-xxl-encoder-Q5_K_M.gguf",
)
output = llm(
"Once upon a time,",
max_tokens=512,
echo=True
)
print(output)
Uso con llama.cpp:
curl -LsSf https://llama.app/install.sh | sh
llama serve -hf oxide-lab/LTX-Video-0.9.5-diffusers:Q5_K_M
llama cli -hf oxide-lab/LTX-Video-0.9.5-diffusers:Q5_K_M
Uso con Ollama:
ollama run hf.co/oxide-lab/LTX-Video-0.9.5-diffusers:Q5_K_M
Compilación y generación de video con Candle en Rust:
git clone https://github.com/FerrisMind/candle-video
cd candle-video
cargo build --release --features flash-attn,cudnn
cargo run --example ltx-video --release -- \
--local-weights ./models/ltx-video \
--prompt "A serene mountain lake at sunset, photorealistic, 4k" \
--width 768 --height 512 --num-frames 97 \
--steps 30
Funcionalidades
- Generación de video desde prompts de texto con LTX-Video 0.9.5.
- Compatible con Diffusers mediante LTXPipeline/DiffusionPipeline.
- Incluye encoder T5-XXL en formato GGUF cuantizado Q5_K_M de 5 bits.
- Implementación nativa en Rust con Candle, sin dependencia de Python para la inferencia en esa ruta.
- Optimización para GPUs NVIDIA con Flash Attention v2 y cuDNN.
- Ahorro de VRAM mediante cuantización GGUF del encoder T5 y tiling/slicing del VAE.
- CLI para generación de video y opción de integración como librería.
- Modelo base: Lightricks/LTX-Video-0.9.5.
- Tamaño GGUF indicado: 5B parámetros, arquitectura t5encoder, archivo de 3.39 GB.
Casos de uso
- Generar clips de video a partir de descripciones textuales con LTX-Video.
- Ejecutar inferencia local de video en hardware propio usando Rust/Candle.
- Reducir consumo de VRAM en flujos de video mediante encoder T5-XXL cuantizado en GGUF.
- Probar LTX-Video 0.9.5 en entornos Diffusers, llama.cpp, Ollama, Docker Model Runner o herramientas locales compatibles con modelos de Hugging Face.
- Crear pipelines personalizados de generación de video que necesiten integración como CLI o librería.