kairos-agi/kairos-sensenova-robot
kairos-agi
Texto a video
Kairos 3.0 es un modelo de mundo multimodal de 4B parámetros orientado a robótica y generación de video. Usa leyes físicas y causales como base de razonamiento, integra comprensión multimodal, generación y predicción de acciones, y está diseñado para inferencia de baja latencia en sistemas de IA encarnada y dispositivos edge. La variante robot se especializa en manipulación robótica y control cerrado en el mundo real.
Como usar
Instalación del entorno:
# Clone the repository
git clone https://github.com/kairos-agi/kairos-sensenova.git
cd kairos-sensenova
# Docker image:
echo ghp_xxxxxxxxxxxxxxxxx | docker login ghcr.io -u username --password-stdin
docker pull ghcr.io/kairos-agi/kairos-sensenova:v0.0.1
docker run --rm -it \
--gpus all \
-v $(pwd):/workspace \
ghcr.io/kairos-agi/kairos-sensenova:v0.0.1 \
bash
# Or install requirements in Python >=3.10, torch >=2.6, cuda >=12.6
pip install -r requirements.txt
Descarga de modelos:
pip install -U huggingface_hub
hf download kairos-agi/kairos-sensenova-robot-4B-480P \
--local-dir models/kairos-model/kairos-sensenova-robot-4B-480P
hf download kairos-agi/kairos-sensenova-robot-4B-480P-distilled \
--local-dir models/kairos-model/kairos-sensenova-robot-4B-480P-distilled
Inferencia:
mkdir -p models/Qwen models/Wan2.1-T2V-14B
hf download Qwen/Qwen2.5-VL-7B-Instruct-AWQ \
--local-dir models/Qwen/Qwen2.5-VL-7B-Instruct-AWQ
hf download Wan-AI/Wan2.1-T2V-14B \
--local-dir models/Wan2.1-T2V-14B \
--include "Wan2.1_VAE.pth"
# Text2Video
bash examples/inference.sh examples/example_t2v.json
# Text&FirstImage2Video
bash examples/inference.sh examples/example_ti2v.json
# FirstImage2Video
bash examples/inference.sh examples/example_i2v.json
Funcionalidades
- Modelo de mundo unificado para comprensión, generación y predicción de acciones.
- Arquitectura multimodal end-to-end con datos de interacción robótica, comportamiento humano estructurado y Chain-of-Thought causal.
- Operador híbrido de atención lineal que reduce la complejidad temporal de O(n^2) a O(n).
- Soporte para generación de video y razonamiento físico-causal, incluyendo salidas 480p y variantes 720p.
- Generalización entre distintos cuerpos robóticos, como brazo simple, doble brazo y manos diestras.
- Compatibilidad indicada con Agibot G1, Unitree G1 y Songling PIPER.
- Variante destilada para integración en robots, edge computing y baja potencia.
- Licencia Apache 2.0.
Casos de uso
- Manipulación robótica y control cerrado en entornos reales.
- Predicción de acciones para IA encarnada con razonamiento físico-causal.
- Generación de video texto-a-video, imagen-a-video y texto+primera imagen-a-video.
- Despliegue de modelos de mundo en robots o sistemas edge con baja latencia.
- Fine-tuning downstream a 480p para tareas de modelado del mundo.
- Generación visual HD y razonamiento físico complejo con variantes 720p.