深

AI基础设施工程师(J13763)

深圳市广和通| 深圳

社招本科

发布于 2026-03-10

职位描述

负责公司AI基础设施平台的搭建、运维与优化，构建智算集群、弹性GPU云平台及大模型服务体系的技术落地，为核心AI业务提供高效、稳定的算力支撑。 1.智算集群建设与运维：参与GPU集群从机房评估到部署上线的全流程，负责网络的配置、调优与NCCL并行验证；搭建并维护SRE体系，保障集群稳定性与SLA达标。 2.GPU云平台搭建与优化：参与“按卡时或按任务分配”弹性GPU云平台的搭建，负责多型号GPU资源的纳管与调度；基于Kubernetes落地GPU虚拟化/池化技术，优化资源利用率与调度策略。 3.大模型工程化支持：协助主流大模型的工程化部署，负责推理框架选型、性能压测与成本控制；运维API MaaS平台，保障模型服务的高可用性。 4.技术迭代与问题排查：追踪前沿技术，推动平台持续演进；负责Linux系统、网络与存储问题的定位与解决，保障系统高效运行。

任职要求

1.学历背景：本科及以上学历，计算机科学与技术、软件工程、电子信息工程、自动化、通信工程等理工科相关专业，具备扎实的计算机体系结构、操作系统、网络原理等基础知识。 2.硬性经验：3年以上云计算/基础设施经验，1年以上AI算力领域相关经历；参与过百卡级以上GPU集群建设、GPU云平台搭建或主流大模型规模化部署项目。 3.核心技术能力：熟悉Kubernetes云原生生态，具备GPU调度与虚拟化实践经验；掌握至少一种主流云平台及Terraform工具，有混合云运维经验；熟练运用Prometheus、ELK等工具搭建监控体系，具备Linux系统、网络与存储知识。 4.软性素质：具备较强的技术落地与问题解决能力，能够快速响应业务需求；擅长跨团队协作，与算法、产品团队高效配合；结果导向，对系统稳定性与客户体验有高要求；逻辑清晰，抗压能力强，学习速度快。加分项有智算算力产品运维经验；具备高并发业务基础设施运维经验；了解国产算力生态。

安卓系统开发工程师（西安）(J14019)

2026-07-02

深圳市广和通· 西安·

26届

岗位详情

安卓系统开发工程师(深圳）(J14018)

2026-07-02

深圳市广和通· 深圳/西安·

26届

岗位详情

产品线财务BP(J14011)

2026-06-30

深圳市广和通· 深圳·

26届

岗位详情

泰州分公司-储备干部5401

2026-06-01

长城汽车· 泰州市-高港区·

26届

岗位详情

诺博汽车-平湖工厂-车间技术岗

2026-05-21

长城汽车· 嘉兴市-平湖市·

26届

岗位详情

长城技术中心-英语翻译

2026-05-11

长城汽车· 保定市·

26届

岗位详情

AI基础设施工程师(J13763)

职位描述

任职要求

相关职位推荐

安卓系统开发工程师（西安）(J14019)

安卓系统开发工程师(深圳）(J14018)

产品线财务BP(J14011)

泰州分公司-储备干部5401

诺博汽车-平湖工厂-车间技术岗

长城技术中心-英语翻译