Lightricks/LTX-Video-0.9.7-dev

Lightricks
Texto a video

Modelo de generación de vídeo basado en difusión y arquitectura DiT, desarrollado por Lightricks para crear vídeos de alta calidad a partir de texto, imagen+texto y vídeo condicionado. La versión 0.9.7-dev corresponde a la variante 13B orientada a máxima calidad, con generación de vídeo de hasta 30 FPS y resoluciones altas, incluyendo flujos recomendados con escalado latente espacial.

Como usar

Instalación local:

git clone https://github.com/Lightricks/LTX-Video.git
cd LTX-Video
python -m venv env
source env/bin/activate
python -m pip install -e .\[inference-script\]

Inferencia texto-a-vídeo con el script oficial:

python inference.py --prompt "PROMPT" --height HEIGHT --width WIDTH --num_frames NUM_FRAMES --seed SEED --pipeline_config configs/ltxv-13b-0.9.7-dev.yaml

Inferencia imagen-a-vídeo:

python inference.py --prompt "PROMPT" --input_image_path IMAGE_PATH --height HEIGHT --width WIDTH --num_frames NUM_FRAMES --seed SEED --pipeline_config configs/ltxv-13b-0.9.7-dev.yaml

Uso básico con Diffusers:

import torch
from diffusers import DiffusionPipeline

pipe = DiffusionPipeline.from_pretrained(
    "Lightricks/LTX-Video-0.9.7-dev",
    dtype=torch.bfloat16,
    device_map="cuda"
)
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Requisitos indicados: Python 3.10.5, CUDA 12.2 y PyTorch >= 2.1.2. Los prompts deben escribirse en inglés y suelen funcionar mejor cuando son largos, visuales y detallados.

Funcionalidades

Generación texto-a-vídeo, imagen-a-vídeo y vídeo-a-vídeo mediante Diffusers o el script local de LTX-Video.
Modelo 13B de mayor calidad dentro de la familia LTX-Video 0.9.7, con mayor consumo de VRAM que las variantes destiladas o 2B.
Compatible con ComfyUI, Diffusers, ejecución local, Fal.ai, Replicate y demos online de LTX Studio.
Admite resoluciones divisibles por 32 y cantidades de fotogramas del tipo divisible por 8 + 1; funciona mejor por debajo de 720 x 1280 y menos de 257 fotogramas.
Incluye flujo recomendado de generación a menor resolución, escalado latente 2x y denoising posterior para mejorar textura antes de exportar el vídeo.

Casos de uso

Crear clips cinematográficos desde descripciones textuales detalladas.
Animar una imagen de entrada con una instrucción textual, por ejemplo convertir una imagen estática en una escena breve.
Generar variaciones o continuaciones condicionadas por fotogramas de un vídeo existente.
Prototipar vídeos de alta calidad en ComfyUI o Diffusers antes de pasar a variantes destiladas para iteración rápida.
Producción experimental de material visual donde se prioriza calidad sobre bajo consumo de VRAM.