软件开发工程师(GPU系统工具/SDK)

新紫光集团前沿技术研究院| 上海/天津/杭州
社招电子 / 半导体本科
发布于 2026-04-13

职位描述

1.系统级 SDK 设计与实现 设计并实现 GPU 管理类 SDK(C / C++ / C API),能力覆盖: 设备枚举、属性查询、状态管理 性能指标、健康状态、错误信息采集 拓扑关系(PCIe / Fabric / NUMA / Host-GPU / GPU-GPU) 设计稳定、可扩展、可演进的 API 接口(ABI / API 兼容性 2.工具与服务开发 开发 GPU 管理与运维工具 支持本地、远程、集群级别的 GPU 管理与控制 3.集群与 Fabric 管理能力 参与 GPU 集群互联与 Fabric 管理相关功能设计: GPU-GPU / GPU-CPU 互联拓扑发现 Fabric 初始化、状态监控、异常检测 支持多卡服务器与多节点集群形态 4.监控、诊断与验证 实现 GPU 运行状态、性能与健康监控(Metrics / Telemetry) 设计并实现验证与诊断工具(硬件 / 驱动 / 系统级) 支持错误注入、压力测试、稳定性验证 5.RAS(可靠性)相关能力 GPU 错误、告警、事件的采集与上报 支持 ECC、硬件错误、链路异常等 RAS 能力 为上层调度、运维系统提供可靠数据基础 6.系统集成与生态对接 对接 Linux 系统、驱动、内核接口(sysfs / ioctl / procfs) 与集群调度系统、监控系统(如 K8s、Prometheus)集成 支持单机、服务器、集群等多部署形态

任职要求

1.扎实的 C / C++ 基础,具备系统级开发经验 熟悉 Linux 系统编程:进程 / 线程 / IPC 文件系统、sysfs、procfs Daemon / Service 设计 2.熟悉 GPU 或加速器相关软件栈: GPU 驱动接口 设备管理、性能计数器、错误处理 3.有 SDK / 工具类产品 的设计或维护经验 4.具备良好的工程能力(代码质量、可维护性、文档意识) 加分项 5.有以下工具或同类系统的开发经验: NVML / nvidia-smi DCGM / GPU Monitoring Fabric Manager / 集群管理服务 NVVS / 硬件验证工具 6.熟悉 GPU 架构、PCIe、Fabric / 高速互联 7.有 集群 / 数据中心 / K8s / HPC 相关经验 8.熟悉 性能分析、诊断、RAS 体系 9.有跨团队协作、技术方案设计经验

相关职位推荐