新

软件开发工程师(GPU系统工具/SDK)

新紫光集团前沿技术研究院| 上海/天津/杭州· 上海

社招电子 / 半导体本科

发布于 2026-04-13

职位描述

1.系统级 SDK 设计与实现设计并实现 GPU 管理类 SDK（C / C++ / C API），能力覆盖：设备枚举、属性查询、状态管理性能指标、健康状态、错误信息采集拓扑关系（PCIe / Fabric / NUMA / Host-GPU / GPU-GPU）设计稳定、可扩展、可演进的 API 接口（ABI / API 兼容性 2.工具与服务开发开发 GPU 管理与运维工具支持本地、远程、集群级别的 GPU 管理与控制 3.集群与 Fabric 管理能力参与 GPU 集群互联与 Fabric 管理相关功能设计： GPU-GPU / GPU-CPU 互联拓扑发现 Fabric 初始化、状态监控、异常检测支持多卡服务器与多节点集群形态 4.监控、诊断与验证实现 GPU 运行状态、性能与健康监控（Metrics / Telemetry）设计并实现验证与诊断工具（硬件 / 驱动 / 系统级）支持错误注入、压力测试、稳定性验证 5.RAS（可靠性）相关能力 GPU 错误、告警、事件的采集与上报支持 ECC、硬件错误、链路异常等 RAS 能力为上层调度、运维系统提供可靠数据基础 6.系统集成与生态对接对接 Linux 系统、驱动、内核接口（sysfs / ioctl / procfs）与集群调度系统、监控系统（如 K8s、Prometheus）集成支持单机、服务器、集群等多部署形态

任职要求

1.扎实的 C / C++ 基础，具备系统级开发经验熟悉 Linux 系统编程：进程 / 线程 / IPC 文件系统、sysfs、procfs Daemon / Service 设计 2.熟悉 GPU 或加速器相关软件栈： GPU 驱动接口设备管理、性能计数器、错误处理 3.有 SDK / 工具类产品的设计或维护经验 4.具备良好的工程能力（代码质量、可维护性、文档意识）加分项 5.有以下工具或同类系统的开发经验： NVML / nvidia-smi DCGM / GPU Monitoring Fabric Manager / 集群管理服务 NVVS / 硬件验证工具 6.熟悉 GPU 架构、PCIe、Fabric / 高速互联 7.有集群 / 数据中心 / K8s / HPC 相关经验 8.熟悉性能分析、诊断、RAS 体系 9.有跨团队协作、技术方案设计经验

芯片应用开发工程师

2026-05-29

新紫光集团前沿技术研究院· 成都/海口·

26届电子 / 半导体

岗位详情

加入投递

工艺整合工程师-3D堆叠方向

2026-05-15

新紫光集团前沿技术研究院· 北京·

26届电子 / 半导体

岗位详情

加入投递

AI加速卡系统测试工程师

2026-04-17

新紫光集团前沿技术研究院· 北京/天津·

26届互联网 / 电子 / 网游

岗位详情

加入投递

现场应用工程师-2027届

2026-06-05

普源精电· 西安/北京/上海/苏州·

27届电子 / 半导体

岗位详情

加入投递

模拟IC工程师-2027届

2026-06-05

普源精电· 西安/北京/上海/苏州·

27届电子 / 半导体

岗位详情

加入投递

射频IC工程师-2027届

2026-06-05

普源精电· 西安/北京/上海/苏州·

27届电子 / 半导体

岗位详情

加入投递

软件开发工程师(GPU系统工具/SDK)

职位描述

任职要求

相关职位推荐

芯片应用开发工程师

工艺整合工程师-3D堆叠方向

AI加速卡系统测试工程师

现场应用工程师-2027届

模拟IC工程师-2027届

射频IC工程师-2027届