🎯 整体架构
EDGE AI
OS采用7层分层架构:开发者生态、云端服务、云边协同、边端Agent核心、模型运行时与调度、数据存储、硬件设备。以Linux +
NVIDIA CUDA为底座,结合Kubernetes +
KubeEdge的集群算力编排与边缘自治,实现云-边-端算力池化与统一调度。推理/运维栈基于TensorRT-LLM、Triton、DeepStream、ONNX
Runtime CUDA、PyTorch等NVIDIA开源组件,NVIDIA GPU
Operator管理GPU资源,NVIDIA Container
Toolkit支持GPU容器运行时,Helm管理应用部署,Prometheus/Grafana提供监控能力。
👥 开发者生态层
Agents生态:提供Agent模板库和一句话生成功能,零代码快速创建AI应用。开放平台:提供SDK、API和开发工具链。开发者社区:促进经验交流和Agent共享。
☁️ 云端服务层
Model Hub
(CUDA):模型全生命周期管理,支持ONNX/TensorRT优化、Triton模板与灰度回滚。Knowledge Hub
Cloud:知识库编辑与同步,支持CUDA批量Embedding与RAG配置。Agent Studio:AI
Agent快速搭建平台,支持模板库、工作流编排和Agent商店。TMS
3.0:统一设备管理平台,实现AI设备注册、监控、应用分发、OTA升级和远程运维。Cluster
Orchestrator:基于Kubernetes + NVIDIA GPU Operator的GPU/CPU/MIG池化、负载均衡与弹性调度,NVIDIA
Device Plugin自动发现GPU资源,对接KubeEdge CloudCore下沉到边缘。Edge Runtime:基于KubeEdge
EdgeCore/EdgeHub的端边运行时,支持灰度发布、离线自治,Helm Charts管理应用部署。
⇄ 云边协同层
通过MQTT等协议实现云端与边端实时连接(CloudHub/EdgeHub,KubeEdge),支持模型/知识库/配置同步(CRD);EdgeMesh本地转发节省带宽。结合集群算力编排与边缘自治运行时实现跨节点负载均衡、健康检查与任务自动迁移,确保在离线或抖动场景下仍可边缘自治运行。
🧠 边端Agent核心层 - 智能认知闭环
核心亮点:通过记忆模块(时间轴) → 知识库系统 → Agent自规划三位一体,形成"记忆-学习-决策"闭环。知识库支持Milvus/Faiss/pgvector/Qdrant与全文混检,CUDA加速Embedding与RAG重排序。边缘运行时:基于KubeEdge
EdgeCore/EdgeHub + TensorRT/Triton/DeepStream
提供本地多模态推理与灰度热更新。设备管理Edge:EdgeHub/DeviceTwin消息总线、规则引擎与GPU健康监测。多模态能力:听/说/看/感知/显示/执行的全链路感知-决策-执行。
⚡ 模型运行时与调度层
CUDA推理引擎:TensorRT-LLM/Triton/DeepStream 加速 LLM/CV,多精度与 CUDA Graphs,MIG
切分,ONNX Runtime CUDA 统一执行,cuDNN/cuBLAS 提供底层加速。Michael调度器:基于
Kubernetes/KubeEdge 亲和/taint/优先级,GPU/MIG/CPU 资源感知(NVIDIA GPU Operator),HPA/VPA/Cluster
Autoscaler 弹性,云-边分级调度联动 Cluster Orchestrator。Uriel执行器:通过 Kubernetes/Edge
Runtime(KubeEdge EdgeCore/EdgeHub)下发
Deployment/Job/CRD,DeviceTwin/消息总线驱动设备,Prometheus/Grafana 监控,Helm Charts 部署,支持离线自治、观测、自愈与回滚。
💾 数据存储层
采用边缘端轻量化数据库组合:向量数据库支持RAG语义检索(Milvus/Faiss/Qdrant/pgvector),并可GPU加速;时序数据库(TimescaleDB/InfluxDB)存储设备历史数据;本地数据库可选SQLite/PostgreSQL/LMDB等,用于配置与状态缓存;配合加密、备份保障数据安全。
🔧 硬件设备层
以NVIDIA GPU/Tensor Core为主力算力,辅以Jetson
Orin/AGX边缘SoC和x86/ARM CPU控制面。硬件产品包括AI BOX(Lite/Pro/Ultra)、AI
Mount壁挂屏、AI Glasses智能眼镜和AI Control控制系统。
🧠 智能认知闭环 - 三角循环体系
核心创新:通过记忆模块(时间轴)、知识库系统和Agent自规划三位一体设计,构建三角循环闭环体系。记忆模块提供时间维度的认知基础,知识库实现经验沉淀与知识推理,自规划引擎基于记忆和知识进行自主决策。三者相互支撑、循环强化,实现从"被动响应"到"主动学习"的技术跨越,让边缘AI设备真正具备自主智能和持续进化能力。
🚀 推理性能优化
CUDA/TensorRT:TensorRT-LLM与DeepStream加速 LLM/视频流,INT8/FP16 量化与 CUDA Graphs
提升吞吐。MIG池化:依托 Kubernetes/KubeEdge 编排为 MIG
弹性分配,提升多租户并发。异构调度:自动在 GPU/MIG/CPU 间切换,结合网络/功耗多维优化。
🌐 Kubernetes & NVIDIA 开源生态
Kubernetes生态:基于Kubernetes容器编排,NVIDIA GPU Operator自动管理GPU资源,NVIDIA Device
Plugin发现GPU设备,Helm
Charts管理应用部署,Prometheus/Grafana监控,KubeEdge实现云边协同。NVIDIA开源生态:TensorRT-LLM用于大模型推理优化,Triton
Inference Server提供统一的多模型服务与A/B测试,DeepStream处理多路视频流,ONNX Runtime CUDA兼容主流模型导出,PyTorch
CUDA便于训练/微调,cuDNN/cuBLAS提供底层加速,NVIDIA Container Toolkit支持GPU容器运行时。可在Linux与Jetson端一致部署。
🤝 Agent与设备融合
将Agent智能与IoT设备管理深度融合,边缘端集成设备接入、消息总线和规则引擎,实现智能设备的自主感知、决策和执行,构建完整的边缘智能体系。
☁️ 云边协同机制
支持模型、知识库和配置的实时同步;KubeEdge CloudHub/EdgeHub 提供 MQTT/CRD 通道,EdgeMesh 负责本地转发;Cluster
Orchestrator 提供集群层负载均衡与弹性,Edge Runtime 在边缘节点提供自治、健康检测与灰度发布。离线时边缘仍可独立完成推理与执行,并在恢复后自动补偿同步。