oxide-lab/LTX-Video-0.9.5-diffusers

oxide-lab

Texto a video

Implementación de LTX-Video 0.9.5 para generación de video a partir de texto, empaquetada para Diffusers y con un codificador de texto T5-XXL cuantizado en GGUF Q5_K_M. El repositorio destaca una implementación nativa en Rust con Candle, orientada a inferencia local de alto rendimiento, especialmente en GPU NVIDIA con Flash Attention v2 y cuDNN. Incluye optimizaciones de memoria como cuantización GGUF para el encoder T5 y tiling/slicing del VAE para generar videos HD en GPUs de consumo.

Como usar

Instalación y uso con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("oxide-lab/LTX-Video-0.9.5-diffusers", dtype=torch.bfloat16, device_map="cuda")

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Uso del encoder GGUF con llama-cpp-python:
# !pip install llama-cpp-python
from llama_cpp import Llama

llm = Llama.from_pretrained(
    repo_id="oxide-lab/LTX-Video-0.9.5-diffusers",
    filename="text_encoder_gguf/t5-v1_1-xxl-encoder-Q5_K_M.gguf",
)

output = llm(
    "Once upon a time,",
    max_tokens=512,
    echo=True
)
print(output)

Uso con llama.cpp:
curl -LsSf https://llama.app/install.sh | sh
llama serve -hf oxide-lab/LTX-Video-0.9.5-diffusers:Q5_K_M
llama cli -hf oxide-lab/LTX-Video-0.9.5-diffusers:Q5_K_M

Uso con Ollama:
ollama run hf.co/oxide-lab/LTX-Video-0.9.5-diffusers:Q5_K_M

Compilación y generación de video con Candle en Rust:
git clone https://github.com/FerrisMind/candle-video
cd candle-video
cargo build --release --features flash-attn,cudnn

cargo run --example ltx-video --release -- \
  --local-weights ./models/ltx-video \
  --prompt "A serene mountain lake at sunset, photorealistic, 4k" \
  --width 768 --height 512 --num-frames 97 \
  --steps 30

Funcionalidades

Generación de video desde prompts de texto con LTX-Video 0.9.5.
Compatible con Diffusers mediante LTXPipeline/DiffusionPipeline.
Incluye encoder T5-XXL en formato GGUF cuantizado Q5_K_M de 5 bits.
Implementación nativa en Rust con Candle, sin dependencia de Python para la inferencia en esa ruta.
Optimización para GPUs NVIDIA con Flash Attention v2 y cuDNN.
Ahorro de VRAM mediante cuantización GGUF del encoder T5 y tiling/slicing del VAE.
CLI para generación de video y opción de integración como librería.
Modelo base: Lightricks/LTX-Video-0.9.5.
Tamaño GGUF indicado: 5B parámetros, arquitectura t5encoder, archivo de 3.39 GB.

Casos de uso

Generar clips de video a partir de descripciones textuales con LTX-Video.
Ejecutar inferencia local de video en hardware propio usando Rust/Candle.
Reducir consumo de VRAM en flujos de video mediante encoder T5-XXL cuantizado en GGUF.
Probar LTX-Video 0.9.5 en entornos Diffusers, llama.cpp, Ollama, Docker Model Runner o herramientas locales compatibles con modelos de Hugging Face.
Crear pipelines personalizados de generación de video que necesiten integración como CLI o librería.