meituan-longcat/LongCat-Video

meituan-longcat

Texto a video

LongCat-Video es un modelo fundacional de generación de video de 13.6B parámetros publicado por Meituan LongCat. Unifica texto-a-video, imagen-a-video y continuación de video en una sola arquitectura densa, con énfasis en generación de videos largos de alta calidad, hasta minutos de duración, reduciendo la deriva de color y la degradación visual. Está optimizado para inferencia eficiente a 720p y 30 fps mediante una estrategia de generación de grueso a fino en los ejes temporal y espacial, además de Block Sparse Attention. Sus pesos se publican bajo licencia MIT.

Como usar

Instalación rápida con Diffusers:
pip install -U diffusers transformers accelerate

Uso con Diffusers:
import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
    "meituan-longcat/LongCat-Video",
    dtype=torch.bfloat16,
    device_map="cuda"
)

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Uso con Transformers:
from transformers import AutoModel

model = AutoModel.from_pretrained(
    "meituan-longcat/LongCat-Video",
    dtype="auto"
)

Instalación local del repositorio:
git clone https://github.com/meituan-longcat/LongCat-Video
cd LongCat-Video

conda create -n longcat-video python=3.10
conda activate longcat-video

pip install torch==2.6.0+cu124 torchvision==0.21.0+cu124 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu124
pip install ninja psutil packaging
pip install flash_attn==2.7.4.post1
pip install -r requirements.txt

Descarga de pesos:
pip install "huggingface_hub[cli]"
huggingface-cli download meituan-longcat/LongCat-Video --local-dir ./weights/LongCat-Video

Ejemplos de ejecución:
# Texto a video, una GPU
torchrun run_demo_text_to_video.py --checkpoint_dir=./weights/LongCat-Video --enable_compile

# Texto a video, varias GPU
torchrun --nproc_per_node=2 run_demo_text_to_video.py --context_parallel_size=2 --checkpoint_dir=./weights/LongCat-Video --enable_compile

# Imagen a video
torchrun run_demo_image_to_video.py --checkpoint_dir=./weights/LongCat-Video --enable_compile

# Continuación de video
torchrun run_demo_video_continuation.py --checkpoint_dir=./weights/LongCat-Video --enable_compile

# Video largo
torchrun run_demo_long_video.py --checkpoint_dir=./weights/LongCat-Video --enable_compile

# Generación interactiva
streamlit run ./run_streamlit.py --server.fileWatcherType none --server.headless=false

Funcionalidades

Modelo denso de 13.6B parámetros para generación de video.
Soporta texto-a-video, imagen-a-video y continuación de video con un único modelo.
Preentrenado de forma nativa para continuación de video, lo que permite generar clips largos de varios minutos.
Generación eficiente de video 720p a 30 fps usando estrategia coarse-to-fine temporal y espacial.
Usa Block Sparse Attention para mejorar la eficiencia en resoluciones altas.
Entrenado y ajustado con RLHF multi-recompensa mediante GRPO.
Compatible con Diffusers, Transformers, Safetensors y flujos locales con torchrun.
Incluye demos para generación interactiva, video largo y ejecución con Streamlit.

Casos de uso

Generar videos a partir de prompts de texto.
Animar una imagen inicial como video.
Continuar un video existente manteniendo consistencia visual y temporal.
Crear videos largos de varios minutos con menor deriva de color.
Prototipar experiencias interactivas de generación de video.
Investigar modelos abiertos de generación de video comparables a soluciones comerciales.