oxide-lab/LTX-Video-0.9.8-2B-distilled

oxide-lab

Texto a video

Implementación en Rust de LTX-Video 0.9.8 2B distilled para generación de video a partir de texto, basada en Candle y empaquetada con cuantización GGUF para reducir memoria. El repositorio incluye el codificador de texto T5-XXL en formato GGUF Q5_K_M y está orientado a inferencia local eficiente, especialmente en GPU NVIDIA con CUDA, Flash Attention v2 y cuDNN.

Como usar

Uso con llama-cpp-python:
# !pip install llama-cpp-python
from llama_cpp import Llama

llm = Llama.from_pretrained(
    repo_id="oxide-lab/LTX-Video-0.9.8-2B-distilled",
    filename="text_encoder_gguf/t5-v1_1-xxl-encoder-Q5_K_M.gguf",
)

output = llm(
    "Once upon a time,",
    max_tokens=512,
    echo=True
)
print(output)

Uso con llama.cpp:
# Instalar en macOS/Linux
curl -LsSf https://llama.app/install.sh | sh

# Servidor local compatible con OpenAI y UI web
llama serve -hf oxide-lab/LTX-Video-0.9.8-2B-distilled:Q5_K_M

# Inferencia directa en terminal
llama cli -hf oxide-lab/LTX-Video-0.9.8-2B-distilled:Q5_K_M

Uso con Ollama:
ollama run hf.co/oxide-lab/LTX-Video-0.9.8-2B-distilled:Q5_K_M

Uso con Docker Model Runner:
docker model run hf.co/oxide-lab/LTX-Video-0.9.8-2B-distilled:Q5_K_M

Uso con Candle/Rust para generación de video:
git clone https://github.com/FerrisMind/candle-video
cd candle-video
cargo build --release --features flash-attn,cudnn

cargo run --example ltx-video --release --features flash-attn,cudnn -- \
  --local-weights "c:\model\models\ltxv-2b-0.9.8-distilled" \
  --unified-weights "c:\model\models\ltxv-2b-0.9.8-distilled" \
  --ltxv-version 0.9.8-2b-distilled \
  --prompt "A woman with blood on her face and a white tank top looks down and to her right, then back up as she speaks."

Requisitos destacados: Rust y CUDA Toolkit para la ruta Candle con aceleración GPU. La página indica que el modelo no está desplegado actualmente por proveedores de inferencia de Hugging Face.

Funcionalidades

Generación de video desde prompts de texto con LTX-Video 0.9.8 2B distilled.
Implementación nativa en Rust con Candle, sin dependencia de Python para la inferencia principal.
Codificador T5-XXL cuantizado en GGUF Q5_K_M de 5 bits para reducir el uso de VRAM.
Soporte para VAE tiling y slicing, útil para generar videos 720p o superiores en GPUs de consumo.
CLI para generación de video y posibilidad de integración como librería.
Optimizado para GPUs NVIDIA con Flash Attention v2 y cuDNN.
Modelo base: Lightricks/LTX-Video; arquitectura reportada: t5encoder; tamaño GGUF aproximado: 3.39 GB.

Casos de uso

Generar clips de video a partir de descripciones textuales detalladas.
Ejecutar LTX-Video localmente con menor consumo de memoria gracias a GGUF.
Probar flujos de generación de video en Rust/Candle sin depender de una pila Python para inferencia.
Integrar generación de video en herramientas locales o pipelines personalizados mediante CLI o librería.
Experimentar con prompts cinematográficos, escenas urbanas, paisajes y escenas de personajes descritas en lenguaje natural.