kairos-agi/kairos-sensenova-common

kairos-agi

Texto a video

Kairos 3.0 es un modelo de mundo multimodal de 4B parámetros orientado a IA encarnada, generación de vídeo y predicción de acciones. Usa leyes físicas y causales como base cognitiva, integra comprensión, generación y planificación en un flujo de extremo a extremo, y emplea una atención híbrida lineal para reducir la complejidad temporal de O(n²) a O(n), facilitando inferencia de baja latencia en robots y entornos edge. Está publicado con licencia Apache 2.0.

Como usar

Instalación del entorno:
# Clone the repository
git clone https://github.com/kairos-agi/kairos-sensenova.git
cd kairos-sensenova

# You can set up the environment in two ways:
# 1) Build container from the Docker image
# 2) Build the environment from requirements with conda or venv

# 1) Docker image:
# Pull the Docker image
echo ghp_xxxxxxxxxxxxxxxxx | docker login ghcr.io -u username --password-stdin
docker pull ghcr.io/kairos-agi/kairos-sensenova:v0.0.1

# Create a container using Docker
docker run --rm -it \
  --gpus all \
  -v $(pwd):/workspace \
  ghcr.io/kairos-agi/kairos-sensenova:v0.0.1 \
  bash

# 2) requirments
# build a python environment with python>=3.10 && torch>=2.6 && cuda>=12.6
# install requirements
pip install -r requirements.txt

Descarga de modelos desde Hugging Face:
pip install -U huggingface_hub

# Download kairos model
# 4B-480P
hf download kairos-agi/kairos-sensenova-4B-480P-pretrained \
  --local-dir models/Kairos-model/kairos-sensenova-4B-480P-pretrained

# 4B-720P
hf download kairos-agi/kairos-sensenova-4B-720P \
  --local-dir models/Kairos-model/kairos-sensenova-4B-720P

Descarga desde ModelScope:
pip install modelscope

# Download kairos model
# 4B-480P
modelscope download kairos-team/kairos-sensenova-4B-480P-pretrained \
  --local_dir models/Kairos-model/kairos-sensenova-4B-480P-pretrained

# 4B-720P
modelscope download kairos-team/kairos-sensenova-4B-720P \
  --local_dir models/Kairos-model/kairos-sensenova-4B-720P

Inferencia:
# Step1: Fetch the Model
mkdir -p models/Qwen models/Wan2.1-T2V-14B

# Download Qwen2.5-VL for Text-Encoder
hf download Qwen/Qwen2.5-VL-7B-Instruct-AWQ \
  --local-dir models/Qwen/Qwen2.5-VL-7B-Instruct-AWQ

# Dowload Wan2.1-VAE for VAE-Encoder/Decoder
hf download Wan-AI/Wan2.1-T2V-14B \
  --local-dir models/Wan2.1-T2V-14B \
  --include "Wan2.1_VAE.pth"

# Step2: Run the examples
# Text2Video
bash examples/inference.sh examples/example_t2v.json

# Text&FirstImage2Video
bash examples/inference.sh examples/example_ti2v.json

# FirstImage2Video
bash examples/inference.sh examples/example_i2v.json

Funcionalidades

Arquitectura de 4B parámetros para modelado de mundo, generación y predicción de acciones.
Soporte para generación de vídeo text-to-video, image-to-video y text+first-image-to-video.
Atención híbrida lineal diseñada para modelos de mundo, con menor coste de VRAM y cómputo en secuencias largas.
Modelos 480p y 720p, incluyendo variantes para manipulación robótica, control cerrado y destilación edge.
Generalización entre plataformas robóticas como Agibot G1, Unitree G1 y Songling PIPER.
Rendimiento reportado fuerte en PAI-Bench, WorldModelBench, DreamGen Bench y VideoPHY.
Optimización para inferencia en tiempo real en GPU única o múltiples GPU, incluyendo A800 y RTX 5090.

Casos de uso

Generación de vídeo a partir de texto en 480p o 720p.
Generación de vídeo condicionada por una primera imagen o por texto más imagen inicial.
Manipulación robótica y control de bucle cerrado en escenarios reales.
Predicción de acciones para IA encarnada basada en razonamiento físico-causal.
Despliegue edge o integrado en robots mediante la variante destilada de 480p.
Razonamiento físico complejo y generación visual HD con la variante 720p.
Fine-tuning downstream usando el modelo preentrenado 480p.