kairos-agi/kairos-sensenova-robot

kairos-agi
Texto a video

Kairos 3.0 es un modelo de mundo multimodal de 4B parámetros orientado a robótica y generación de video. Usa leyes físicas y causales como base de razonamiento, integra comprensión multimodal, generación y predicción de acciones, y está diseñado para inferencia de baja latencia en sistemas de IA encarnada y dispositivos edge. La variante robot se especializa en manipulación robótica y control cerrado en el mundo real.

Como usar

Instalación del entorno:

# Clone the repository
git clone https://github.com/kairos-agi/kairos-sensenova.git
cd kairos-sensenova

# Docker image:
echo ghp_xxxxxxxxxxxxxxxxx | docker login ghcr.io -u username --password-stdin
docker pull ghcr.io/kairos-agi/kairos-sensenova:v0.0.1

docker run --rm -it \
  --gpus all \
  -v $(pwd):/workspace \
  ghcr.io/kairos-agi/kairos-sensenova:v0.0.1 \
  bash

# Or install requirements in Python >=3.10, torch >=2.6, cuda >=12.6
pip install -r requirements.txt

Descarga de modelos:

pip install -U huggingface_hub

hf download kairos-agi/kairos-sensenova-robot-4B-480P \
  --local-dir models/kairos-model/kairos-sensenova-robot-4B-480P

hf download kairos-agi/kairos-sensenova-robot-4B-480P-distilled \
  --local-dir models/kairos-model/kairos-sensenova-robot-4B-480P-distilled

Inferencia:

mkdir -p models/Qwen models/Wan2.1-T2V-14B

hf download Qwen/Qwen2.5-VL-7B-Instruct-AWQ \
  --local-dir models/Qwen/Qwen2.5-VL-7B-Instruct-AWQ

hf download Wan-AI/Wan2.1-T2V-14B \
  --local-dir models/Wan2.1-T2V-14B \
  --include "Wan2.1_VAE.pth"

# Text2Video
bash examples/inference.sh examples/example_t2v.json

# Text&FirstImage2Video
bash examples/inference.sh examples/example_ti2v.json

# FirstImage2Video
bash examples/inference.sh examples/example_i2v.json

Funcionalidades

Modelo de mundo unificado para comprensión, generación y predicción de acciones.
Arquitectura multimodal end-to-end con datos de interacción robótica, comportamiento humano estructurado y Chain-of-Thought causal.
Operador híbrido de atención lineal que reduce la complejidad temporal de O(n^2) a O(n).
Soporte para generación de video y razonamiento físico-causal, incluyendo salidas 480p y variantes 720p.
Generalización entre distintos cuerpos robóticos, como brazo simple, doble brazo y manos diestras.
Compatibilidad indicada con Agibot G1, Unitree G1 y Songling PIPER.
Variante destilada para integración en robots, edge computing y baja potencia.
Licencia Apache 2.0.

Casos de uso

Manipulación robótica y control cerrado en entornos reales.
Predicción de acciones para IA encarnada con razonamiento físico-causal.
Generación de video texto-a-video, imagen-a-video y texto+primera imagen-a-video.
Despliegue de modelos de mundo en robots o sistemas edge con baja latencia.
Fine-tuning downstream a 480p para tareas de modelado del mundo.
Generación visual HD y razonamiento físico complejo con variantes 720p.