大模型Infra架构工程师(1-2年经验)

中科紫东太初| 北京
社招基础架构社招本科
发布于 2026-02-03

职位描述

负责大模型分布式训练与在线推理系统的架构设计与优化,搭建高可用、高性能的AI Infra平台,支撑千亿级参数模型的训练与服务落地。 优化大规模异构算力集群的调度、存储与通信方案,整合GPU、NVLink、InfiniBand等硬件资源,提升整体硬件利用率与系统稳定性。 研究并落地多维混合并行策略(DP/TP/PP/EP/CP)、混合精度训练(FP8)、Zero、FSDP等技术,解决大模型训练中的显存开销与通信延迟问题。 负责推理服务的工程化搭建,优化模型部署流程,实现模型热更新、负载均衡、弹性扩缩容,保障服务低延迟、高吞吐运行。 搭建系统可观测性体系,设计监控、告警与性能分析方案,快速定位并解决集群调度、存储、通信等系统级瓶颈问题。 跟踪云原生与AI Infra前沿技术,结合业务需求推动架构迭代,探索编译优化、自动并行、模型服务化等方向的技术创新。

任职要求

本科及以上学历,计算机科学、软件工程、电子工程等相关专业,1-2年大模型Infra、分布式系统或高性能计算开发经验。 精通C++/Python编程语言,熟悉Linux环境开发,具备扎实的数据结构、算法与操作系统基础,深入理解分布式系统设计原理。 熟悉主流深度学习框架(PyTorch/TensorFlow)与分布式训练框架(DeepSpeed/Megatron-LM/FSDP),了解其底层通信与并行机制。 具备GPU/CUDA编程经验,熟悉NCCL、MPI、RDMA等通信库或协议,了解容器化技术(Docker/Kubernetes)与异构算力调度者优先。 具备较强的系统设计与问题排查能力,能独立负责模块架构设计与落地,对技术细节有极致追求,具备良好的团队协作能力。 加分项:有大规模大模型训练集群搭建经验;熟悉AI编译器技术(TVM/MLIR/Triton);在OSDI/MLSys等顶会发表论文或有开源项目贡献者优先。

相关职位推荐