gajesh/LTX-2.3-mlx-fp16

gajesh

Texto a video

Conversión optimizada para MLX en Apple Silicon del modelo Lightricks/LTX-2.3 22B Distilled, un transformador de difusión conjunto de audio y vídeo para generación de vídeo. Usa pesos en formato safetensors float16 y está pensada para Macs Apple Silicon con al menos 64 GB de RAM.

Como usar

Instalación y descarga desde Hugging Face:
# Download the model from the Hub
pip install huggingface_hub[hf_xet]
huggingface-cli download --local-dir LTX-2.3-mlx-fp16 gajesh/LTX-2.3-mlx-fp16

Uso con mlx-ltx:
pip install mlx-ltx

from mlx_ltx.pipeline import DistilledPipeline, save_video

pipeline = DistilledPipeline("path/to/mlx-weights")
video = pipeline(
    prompt="A golden retriever playing piano in a concert hall",
    height=576,
    width=1024,
    num_frames=121,
    seed=42,
)
save_video(video, "output.mp4", fps=24.0)

Conversión desde el checkpoint original de PyTorch:
mlx-ltx-convert \
  --checkpoint /path/to/ltx-2.3-22b-distilled.safetensors \
  --gemma-root /path/to/gemma-3-12b-it/ \
  --output-dir ./mlx-weights/

Funcionalidades

Generación de vídeo a partir de texto con arquitectura de difusión audio-vídeo.
Pesos MLX en float16, con un tamaño total aproximado de 66 GB.
Incluye transformador DiT de 22B parámetros, codificador de texto Gemma 3 12B, VAE de vídeo, upsampler espacial y componentes de audio VAE/vocoder.
Optimizada para Apple Silicon con atención Metal fusionada mediante mx.fast.scaled_dot_product_attention.
Hasta 1,7x más rápida que PyTorch MPS en modo solo vídeo según benchmarks en M4 Max 128 GB.
Menor uso de memoria que PyTorch MPS: alrededor de 34 GB en modo solo vídeo frente a más de 60 GB.
Existe una variante cuantizada a 4 bits de unos 35 GB para Macs de 32 GB.

Casos de uso

Generar vídeos cortos a partir de prompts de texto en Macs Apple Silicon de alta memoria.
Ejecutar LTX-2.3 localmente con MLX sin depender de proveedores de inferencia externos.
Comparar rendimiento entre PyTorch MPS y MLX para pipelines de generación de vídeo.
Crear vídeos con configuración de resolución, número de frames y semilla reproducible.
Experimentar con flujos locales de conversión y despliegue de pesos LTX-2.3 en formato MLX.