AI基础设施工程师(J13763)

深圳市广和通| 深圳
社招本科
发布于 2026-03-10

职位描述

负责公司AI基础设施平台的搭建、运维与优化,构建智算集群、弹性GPU云平台及大模型服务体系的技术落地,为核心AI业务提供高效、稳定的算力支撑。 1.智算集群建设与运维:参与GPU集群从机房评估到部署上线的全流程,负责网络的配置、调优与NCCL并行验证;搭建并维护SRE体系,保障集群稳定性与SLA达标。 2.GPU云平台搭建与优化:参与“按卡时或按任务分配”弹性GPU云平台的搭建,负责多型号GPU资源的纳管与调度;基于Kubernetes落地GPU虚拟化/池化技术,优化资源利用率与调度策略。 3.大模型工程化支持:协助主流大模型的工程化部署,负责推理框架选型、性能压测与成本控制;运维API MaaS平台,保障模型服务的高可用性。 4.技术迭代与问题排查:追踪前沿技术,推动平台持续演进;负责Linux系统、网络与存储问题的定位与解决,保障系统高效运行。

任职要求

1.学历背景:本科及以上学历,计算机科学与技术、软件工程、电子信息工程、自动化、通信工程等理工科相关专业,具备扎实的计算机体系结构、操作系统、网络原理等基础知识。 2.硬性经验:3年以上云计算/基础设施经验,1年以上AI算力领域相关经历;参与过百卡级以上GPU集群建设、GPU云平台搭建或主流大模型规模化部署项目。 3.核心技术能力:熟悉Kubernetes云原生生态,具备GPU调度与虚拟化实践经验;掌握至少一种主流云平台及Terraform工具,有混合云运维经验;熟练运用Prometheus、ELK等工具搭建监控体系,具备Linux系统、网络与存储知识。 4.软性素质:具备较强的技术落地与问题解决能力,能够快速响应业务需求;擅长跨团队协作,与算法、产品团队高效配合;结果导向,对系统稳定性与客户体验有高要求;逻辑清晰,抗压能力强,学习速度快。 加分项 有智算算力产品运维经验;具备高并发业务基础设施运维经验;了解国产算力生态。

相关职位推荐