kairos-agi/kairos-sensenova-common
kairos-agi
Texto a video
Kairos 3.0 es un modelo de mundo multimodal de 4B parámetros orientado a IA encarnada, generación de vídeo y predicción de acciones. Usa leyes físicas y causales como base cognitiva, integra comprensión, generación y planificación en un flujo de extremo a extremo, y emplea una atención híbrida lineal para reducir la complejidad temporal de O(n²) a O(n), facilitando inferencia de baja latencia en robots y entornos edge. Está publicado con licencia Apache 2.0.
Como usar
Instalación del entorno:
# Clone the repository
git clone https://github.com/kairos-agi/kairos-sensenova.git
cd kairos-sensenova
# You can set up the environment in two ways:
# 1) Build container from the Docker image
# 2) Build the environment from requirements with conda or venv
# 1) Docker image:
# Pull the Docker image
echo ghp_xxxxxxxxxxxxxxxxx | docker login ghcr.io -u username --password-stdin
docker pull ghcr.io/kairos-agi/kairos-sensenova:v0.0.1
# Create a container using Docker
docker run --rm -it \
--gpus all \
-v $(pwd):/workspace \
ghcr.io/kairos-agi/kairos-sensenova:v0.0.1 \
bash
# 2) requirments
# build a python environment with python>=3.10 && torch>=2.6 && cuda>=12.6
# install requirements
pip install -r requirements.txt
Descarga de modelos desde Hugging Face:
pip install -U huggingface_hub
# Download kairos model
# 4B-480P
hf download kairos-agi/kairos-sensenova-4B-480P-pretrained \
--local-dir models/Kairos-model/kairos-sensenova-4B-480P-pretrained
# 4B-720P
hf download kairos-agi/kairos-sensenova-4B-720P \
--local-dir models/Kairos-model/kairos-sensenova-4B-720P
Descarga desde ModelScope:
pip install modelscope
# Download kairos model
# 4B-480P
modelscope download kairos-team/kairos-sensenova-4B-480P-pretrained \
--local_dir models/Kairos-model/kairos-sensenova-4B-480P-pretrained
# 4B-720P
modelscope download kairos-team/kairos-sensenova-4B-720P \
--local_dir models/Kairos-model/kairos-sensenova-4B-720P
Inferencia:
# Step1: Fetch the Model
mkdir -p models/Qwen models/Wan2.1-T2V-14B
# Download Qwen2.5-VL for Text-Encoder
hf download Qwen/Qwen2.5-VL-7B-Instruct-AWQ \
--local-dir models/Qwen/Qwen2.5-VL-7B-Instruct-AWQ
# Dowload Wan2.1-VAE for VAE-Encoder/Decoder
hf download Wan-AI/Wan2.1-T2V-14B \
--local-dir models/Wan2.1-T2V-14B \
--include "Wan2.1_VAE.pth"
# Step2: Run the examples
# Text2Video
bash examples/inference.sh examples/example_t2v.json
# Text&FirstImage2Video
bash examples/inference.sh examples/example_ti2v.json
# FirstImage2Video
bash examples/inference.sh examples/example_i2v.json
Funcionalidades
- Arquitectura de 4B parámetros para modelado de mundo, generación y predicción de acciones.
- Soporte para generación de vídeo text-to-video, image-to-video y text+first-image-to-video.
- Atención híbrida lineal diseñada para modelos de mundo, con menor coste de VRAM y cómputo en secuencias largas.
- Modelos 480p y 720p, incluyendo variantes para manipulación robótica, control cerrado y destilación edge.
- Generalización entre plataformas robóticas como Agibot G1, Unitree G1 y Songling PIPER.
- Rendimiento reportado fuerte en PAI-Bench, WorldModelBench, DreamGen Bench y VideoPHY.
- Optimización para inferencia en tiempo real en GPU única o múltiples GPU, incluyendo A800 y RTX 5090.
Casos de uso
- Generación de vídeo a partir de texto en 480p o 720p.
- Generación de vídeo condicionada por una primera imagen o por texto más imagen inicial.
- Manipulación robótica y control de bucle cerrado en escenarios reales.
- Predicción de acciones para IA encarnada basada en razonamiento físico-causal.
- Despliegue edge o integrado en robots mediante la variante destilada de 480p.
- Razonamiento físico complejo y generación visual HD con la variante 720p.
- Fine-tuning downstream usando el modelo preentrenado 480p.