职位描述
1.系统级 SDK 设计与实现
设计并实现 GPU 管理类 SDK(C / C++ / C API),能力覆盖:
设备枚举、属性查询、状态管理
性能指标、健康状态、错误信息采集
拓扑关系(PCIe / Fabric / NUMA / Host-GPU / GPU-GPU)
设计稳定、可扩展、可演进的 API 接口(ABI / API 兼容性
2.工具与服务开发
开发 GPU 管理与运维工具
支持本地、远程、集群级别的 GPU 管理与控制
3.集群与 Fabric 管理能力
参与 GPU 集群互联与 Fabric 管理相关功能设计:
GPU-GPU / GPU-CPU 互联拓扑发现
Fabric 初始化、状态监控、异常检测
支持多卡服务器与多节点集群形态
4.监控、诊断与验证
实现 GPU 运行状态、性能与健康监控(Metrics / Telemetry)
设计并实现验证与诊断工具(硬件 / 驱动 / 系统级)
支持错误注入、压力测试、稳定性验证
5.RAS(可靠性)相关能力
GPU 错误、告警、事件的采集与上报
支持 ECC、硬件错误、链路异常等 RAS 能力
为上层调度、运维系统提供可靠数据基础
6.系统集成与生态对接
对接 Linux 系统、驱动、内核接口(sysfs / ioctl / procfs)
与集群调度系统、监控系统(如 K8s、Prometheus)集成
支持单机、服务器、集群等多部署形态