职位描述
负责公司AI基础设施平台的搭建、运维与优化,构建智算集群、弹性GPU云平台及大模型服务体系的技术落地,为核心AI业务提供高效、稳定的算力支撑。
1.智算集群建设与运维:参与GPU集群从机房评估到部署上线的全流程,负责网络的配置、调优与NCCL并行验证;搭建并维护SRE体系,保障集群稳定性与SLA达标。
2.GPU云平台搭建与优化:参与“按卡时或按任务分配”弹性GPU云平台的搭建,负责多型号GPU资源的纳管与调度;基于Kubernetes落地GPU虚拟化/池化技术,优化资源利用率与调度策略。
3.大模型工程化支持:协助主流大模型的工程化部署,负责推理框架选型、性能压测与成本控制;运维API MaaS平台,保障模型服务的高可用性。
4.技术迭代与问题排查:追踪前沿技术,推动平台持续演进;负责Linux系统、网络与存储问题的定位与解决,保障系统高效运行。