meituan-longcat/LongCat-Video
meituan-longcat
Texto a video
LongCat-Video es un modelo fundacional de generación de video de 13.6B parámetros publicado por Meituan LongCat. Unifica texto-a-video, imagen-a-video y continuación de video en una sola arquitectura densa, con énfasis en generación de videos largos de alta calidad, hasta minutos de duración, reduciendo la deriva de color y la degradación visual. Está optimizado para inferencia eficiente a 720p y 30 fps mediante una estrategia de generación de grueso a fino en los ejes temporal y espacial, además de Block Sparse Attention. Sus pesos se publican bajo licencia MIT.
Como usar
Instalación rápida con Diffusers:
pip install -U diffusers transformers accelerate
Uso con Diffusers:
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
"meituan-longcat/LongCat-Video",
dtype=torch.bfloat16,
device_map="cuda"
)
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
Uso con Transformers:
from transformers import AutoModel
model = AutoModel.from_pretrained(
"meituan-longcat/LongCat-Video",
dtype="auto"
)
Instalación local del repositorio:
git clone https://github.com/meituan-longcat/LongCat-Video
cd LongCat-Video
conda create -n longcat-video python=3.10
conda activate longcat-video
pip install torch==2.6.0+cu124 torchvision==0.21.0+cu124 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu124
pip install ninja psutil packaging
pip install flash_attn==2.7.4.post1
pip install -r requirements.txt
Descarga de pesos:
pip install "huggingface_hub[cli]"
huggingface-cli download meituan-longcat/LongCat-Video --local-dir ./weights/LongCat-Video
Ejemplos de ejecución:
# Texto a video, una GPU
torchrun run_demo_text_to_video.py --checkpoint_dir=./weights/LongCat-Video --enable_compile
# Texto a video, varias GPU
torchrun --nproc_per_node=2 run_demo_text_to_video.py --context_parallel_size=2 --checkpoint_dir=./weights/LongCat-Video --enable_compile
# Imagen a video
torchrun run_demo_image_to_video.py --checkpoint_dir=./weights/LongCat-Video --enable_compile
# Continuación de video
torchrun run_demo_video_continuation.py --checkpoint_dir=./weights/LongCat-Video --enable_compile
# Video largo
torchrun run_demo_long_video.py --checkpoint_dir=./weights/LongCat-Video --enable_compile
# Generación interactiva
streamlit run ./run_streamlit.py --server.fileWatcherType none --server.headless=false
Funcionalidades
- Modelo denso de 13.6B parámetros para generación de video.
- Soporta texto-a-video, imagen-a-video y continuación de video con un único modelo.
- Preentrenado de forma nativa para continuación de video, lo que permite generar clips largos de varios minutos.
- Generación eficiente de video 720p a 30 fps usando estrategia coarse-to-fine temporal y espacial.
- Usa Block Sparse Attention para mejorar la eficiencia en resoluciones altas.
- Entrenado y ajustado con RLHF multi-recompensa mediante GRPO.
- Compatible con Diffusers, Transformers, Safetensors y flujos locales con torchrun.
- Incluye demos para generación interactiva, video largo y ejecución con Streamlit.
Casos de uso
- Generar videos a partir de prompts de texto.
- Animar una imagen inicial como video.
- Continuar un video existente manteniendo consistencia visual y temporal.
- Crear videos largos de varios minutos con menor deriva de color.
- Prototipar experiencias interactivas de generación de video.
- Investigar modelos abiertos de generación de video comparables a soluciones comerciales.