oxide-lab/LTX-Video-0.9.8-2B-distilled
oxide-lab
Texto a video
Implementación en Rust de LTX-Video 0.9.8 2B distilled para generación de video a partir de texto, basada en Candle y empaquetada con cuantización GGUF para reducir memoria. El repositorio incluye el codificador de texto T5-XXL en formato GGUF Q5_K_M y está orientado a inferencia local eficiente, especialmente en GPU NVIDIA con CUDA, Flash Attention v2 y cuDNN.
Como usar
Uso con llama-cpp-python:
# !pip install llama-cpp-python
from llama_cpp import Llama
llm = Llama.from_pretrained(
repo_id="oxide-lab/LTX-Video-0.9.8-2B-distilled",
filename="text_encoder_gguf/t5-v1_1-xxl-encoder-Q5_K_M.gguf",
)
output = llm(
"Once upon a time,",
max_tokens=512,
echo=True
)
print(output)
Uso con llama.cpp:
# Instalar en macOS/Linux
curl -LsSf https://llama.app/install.sh | sh
# Servidor local compatible con OpenAI y UI web
llama serve -hf oxide-lab/LTX-Video-0.9.8-2B-distilled:Q5_K_M
# Inferencia directa en terminal
llama cli -hf oxide-lab/LTX-Video-0.9.8-2B-distilled:Q5_K_M
Uso con Ollama:
ollama run hf.co/oxide-lab/LTX-Video-0.9.8-2B-distilled:Q5_K_M
Uso con Docker Model Runner:
docker model run hf.co/oxide-lab/LTX-Video-0.9.8-2B-distilled:Q5_K_M
Uso con Candle/Rust para generación de video:
git clone https://github.com/FerrisMind/candle-video
cd candle-video
cargo build --release --features flash-attn,cudnn
cargo run --example ltx-video --release --features flash-attn,cudnn -- \
--local-weights "c:\model\models\ltxv-2b-0.9.8-distilled" \
--unified-weights "c:\model\models\ltxv-2b-0.9.8-distilled" \
--ltxv-version 0.9.8-2b-distilled \
--prompt "A woman with blood on her face and a white tank top looks down and to her right, then back up as she speaks."
Requisitos destacados: Rust y CUDA Toolkit para la ruta Candle con aceleración GPU. La página indica que el modelo no está desplegado actualmente por proveedores de inferencia de Hugging Face.
Funcionalidades
- Generación de video desde prompts de texto con LTX-Video 0.9.8 2B distilled.
- Implementación nativa en Rust con Candle, sin dependencia de Python para la inferencia principal.
- Codificador T5-XXL cuantizado en GGUF Q5_K_M de 5 bits para reducir el uso de VRAM.
- Soporte para VAE tiling y slicing, útil para generar videos 720p o superiores en GPUs de consumo.
- CLI para generación de video y posibilidad de integración como librería.
- Optimizado para GPUs NVIDIA con Flash Attention v2 y cuDNN.
- Modelo base: Lightricks/LTX-Video; arquitectura reportada: t5encoder; tamaño GGUF aproximado: 3.39 GB.
Casos de uso
- Generar clips de video a partir de descripciones textuales detalladas.
- Ejecutar LTX-Video localmente con menor consumo de memoria gracias a GGUF.
- Probar flujos de generación de video en Rust/Candle sin depender de una pila Python para inferencia.
- Integrar generación de video en herramientas locales o pipelines personalizados mediante CLI o librería.
- Experimentar con prompts cinematográficos, escenas urbanas, paisajes y escenas de personajes descritas en lenguaje natural.