Lightricks/LTX-Video-0.9.7-dev
Lightricks
Texto a video
Modelo de generación de vídeo basado en difusión y arquitectura DiT, desarrollado por Lightricks para crear vídeos de alta calidad a partir de texto, imagen+texto y vídeo condicionado. La versión 0.9.7-dev corresponde a la variante 13B orientada a máxima calidad, con generación de vídeo de hasta 30 FPS y resoluciones altas, incluyendo flujos recomendados con escalado latente espacial.
Como usar
Instalación local:
git clone https://github.com/Lightricks/LTX-Video.git
cd LTX-Video
python -m venv env
source env/bin/activate
python -m pip install -e .\[inference-script\]
Inferencia texto-a-vídeo con el script oficial:
python inference.py --prompt "PROMPT" --height HEIGHT --width WIDTH --num_frames NUM_FRAMES --seed SEED --pipeline_config configs/ltxv-13b-0.9.7-dev.yaml
Inferencia imagen-a-vídeo:
python inference.py --prompt "PROMPT" --input_image_path IMAGE_PATH --height HEIGHT --width WIDTH --num_frames NUM_FRAMES --seed SEED --pipeline_config configs/ltxv-13b-0.9.7-dev.yaml
Uso básico con Diffusers:
import torch
from diffusers import DiffusionPipeline
pipe = DiffusionPipeline.from_pretrained(
"Lightricks/LTX-Video-0.9.7-dev",
dtype=torch.bfloat16,
device_map="cuda"
)
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
Requisitos indicados: Python 3.10.5, CUDA 12.2 y PyTorch >= 2.1.2. Los prompts deben escribirse en inglés y suelen funcionar mejor cuando son largos, visuales y detallados.
Funcionalidades
- Generación texto-a-vídeo, imagen-a-vídeo y vídeo-a-vídeo mediante Diffusers o el script local de LTX-Video.
- Modelo 13B de mayor calidad dentro de la familia LTX-Video 0.9.7, con mayor consumo de VRAM que las variantes destiladas o 2B.
- Compatible con ComfyUI, Diffusers, ejecución local, Fal.ai, Replicate y demos online de LTX Studio.
- Admite resoluciones divisibles por 32 y cantidades de fotogramas del tipo divisible por 8 + 1; funciona mejor por debajo de 720 x 1280 y menos de 257 fotogramas.
- Incluye flujo recomendado de generación a menor resolución, escalado latente 2x y denoising posterior para mejorar textura antes de exportar el vídeo.
Casos de uso
- Crear clips cinematográficos desde descripciones textuales detalladas.
- Animar una imagen de entrada con una instrucción textual, por ejemplo convertir una imagen estática en una escena breve.
- Generar variaciones o continuaciones condicionadas por fotogramas de un vídeo existente.
- Prototipar vídeos de alta calidad en ComfyUI o Diffusers antes de pasar a variantes destiladas para iteración rápida.
- Producción experimental de material visual donde se prioriza calidad sobre bajo consumo de VRAM.