gajesh/LTX-2.3-mlx-fp16
gajesh
Texto a video
Conversión optimizada para MLX en Apple Silicon del modelo Lightricks/LTX-2.3 22B Distilled, un transformador de difusión conjunto de audio y vídeo para generación de vídeo. Usa pesos en formato safetensors float16 y está pensada para Macs Apple Silicon con al menos 64 GB de RAM.
Como usar
Instalación y descarga desde Hugging Face:
# Download the model from the Hub
pip install huggingface_hub[hf_xet]
huggingface-cli download --local-dir LTX-2.3-mlx-fp16 gajesh/LTX-2.3-mlx-fp16
Uso con mlx-ltx:
pip install mlx-ltx
from mlx_ltx.pipeline import DistilledPipeline, save_video
pipeline = DistilledPipeline("path/to/mlx-weights")
video = pipeline(
prompt="A golden retriever playing piano in a concert hall",
height=576,
width=1024,
num_frames=121,
seed=42,
)
save_video(video, "output.mp4", fps=24.0)
Conversión desde el checkpoint original de PyTorch:
mlx-ltx-convert \
--checkpoint /path/to/ltx-2.3-22b-distilled.safetensors \
--gemma-root /path/to/gemma-3-12b-it/ \
--output-dir ./mlx-weights/
Funcionalidades
- Generación de vídeo a partir de texto con arquitectura de difusión audio-vídeo.
- Pesos MLX en float16, con un tamaño total aproximado de 66 GB.
- Incluye transformador DiT de 22B parámetros, codificador de texto Gemma 3 12B, VAE de vídeo, upsampler espacial y componentes de audio VAE/vocoder.
- Optimizada para Apple Silicon con atención Metal fusionada mediante mx.fast.scaled_dot_product_attention.
- Hasta 1,7x más rápida que PyTorch MPS en modo solo vídeo según benchmarks en M4 Max 128 GB.
- Menor uso de memoria que PyTorch MPS: alrededor de 34 GB en modo solo vídeo frente a más de 60 GB.
- Existe una variante cuantizada a 4 bits de unos 35 GB para Macs de 32 GB.
Casos de uso
- Generar vídeos cortos a partir de prompts de texto en Macs Apple Silicon de alta memoria.
- Ejecutar LTX-2.3 localmente con MLX sin depender de proveedores de inferencia externos.
- Comparar rendimiento entre PyTorch MPS y MLX para pipelines de generación de vídeo.
- Crear vídeos con configuración de resolución, número de frames y semilla reproducible.
- Experimentar con flujos locales de conversión y despliegue de pesos LTX-2.3 en formato MLX.