gajesh/LTX-2.3-mlx-q4

gajesh
Texto a video

Versión optimizada para MLX y cuantizada a 4 bits del modelo de generación de video LTX-2.3 22B Distilled de Lightricks. Está pensada para Macs Apple Silicon con 32 GB de RAM, reduciendo el transformador de 39 GB a 11 GB y manteniendo una velocidad prácticamente igual a la versión FP16 en las pruebas indicadas.

Como usar

Descarga desde Hugging Face Hub:

# Download the model from the Hub
pip install huggingface_hub[hf_xet]
huggingface-cli download --local-dir LTX-2.3-mlx-q4 gajesh/LTX-2.3-mlx-q4

Uso local con mlx_ltx:

from mlx_ltx.pipeline import DistilledPipeline, save_video

pipeline = DistilledPipeline("path/to/mlx-weights-q4")

video = pipeline(
    prompt="A cat surfing on ocean waves at sunset",
    height=576,
    width=1024,
    num_frames=121,
    seed=42,
)
save_video(video, "output.mp4", fps=24.0)

Funcionalidades

Generación de video a partir de texto con arquitectura joint audio-video diffusion transformer.
Pesos en formato MLX safetensors, con transformador cuantizado a 4 bits y VAE/codificador de texto en float16.
Compresión aproximada de 3,6x en el transformador: de 39 GB a 11 GB.
Diseñado para ejecutarse en Apple Silicon con un mínimo de 32 GB de RAM.
En benchmark sobre M4 Max 128 GB, reduce la memoria pico a 29,9 GB y alcanza alrededor de 1,7x de aceleración frente a PyTorch MPS BF16.
Cuantización post-entrenamiento con `mlx.nn.quantize()`, 4 bits y tamaño de grupo 64.

Casos de uso

Generar videos cortos desde prompts de texto en Macs Apple Silicon.
Probar LTX-2.3 en hardware local con 32 GB de RAM sin requerir la versión FP16 completa.
Flujos de prototipado de video generativo donde importan el tamaño del modelo y la memoria pico.
Comparar inferencia MLX cuantizada frente a PyTorch MPS o MLX FP16 en tareas de video.