中

大模型Infra架构工程师（1-2年经验）

中科紫东太初| 北京· 知春路65号中国卫星通信大厦A座

社招基础架构社招本科

发布于 2026-02-03

职位描述

负责大模型分布式训练与在线推理系统的架构设计与优化，搭建高可用、高性能的AI Infra平台，支撑千亿级参数模型的训练与服务落地。优化大规模异构算力集群的调度、存储与通信方案，整合GPU、NVLink、InfiniBand等硬件资源，提升整体硬件利用率与系统稳定性。研究并落地多维混合并行策略（DP/TP/PP/EP/CP）、混合精度训练（FP8）、Zero、FSDP等技术，解决大模型训练中的显存开销与通信延迟问题。负责推理服务的工程化搭建，优化模型部署流程，实现模型热更新、负载均衡、弹性扩缩容，保障服务低延迟、高吞吐运行。搭建系统可观测性体系，设计监控、告警与性能分析方案，快速定位并解决集群调度、存储、通信等系统级瓶颈问题。跟踪云原生与AI Infra前沿技术，结合业务需求推动架构迭代，探索编译优化、自动并行、模型服务化等方向的技术创新。

任职要求

本科及以上学历，计算机科学、软件工程、电子工程等相关专业，1-2年大模型Infra、分布式系统或高性能计算开发经验。精通C++/Python编程语言，熟悉Linux环境开发，具备扎实的数据结构、算法与操作系统基础，深入理解分布式系统设计原理。熟悉主流深度学习框架（PyTorch/TensorFlow）与分布式训练框架（DeepSpeed/Megatron-LM/FSDP），了解其底层通信与并行机制。具备GPU/CUDA编程经验，熟悉NCCL、MPI、RDMA等通信库或协议，了解容器化技术（Docker/Kubernetes）与异构算力调度者优先。具备较强的系统设计与问题排查能力，能独立负责模块架构设计与落地，对技术细节有极致追求，具备良好的团队协作能力。加分项：有大规模大模型训练集群搭建经验；熟悉AI编译器技术（TVM/MLIR/Triton）；在OSDI/MLSys等顶会发表论文或有开源项目贡献者优先。

政企客户专员/主管 - 佛山

2026-05-25

中科紫东太初· 佛山·

26届销售专员

岗位详情

加入投递

智算云平台后端实习生

2026-04-28

中科紫东太初· 北京·

26届研发

岗位详情

加入投递

智算云平台后端工程师-太初云

2026-04-28

中科紫东太初· 北京·

26届研发

岗位详情

加入投递

资产与资源运营实习生（基础设施方向）

2026-06-12

上海稀宇科技有限公司· 北京·

26届基础架构

岗位详情

加入投递

【校招实习生】AI Infra工程师-云平台方向

2026-06-05

新石器无人车· 北京/上海·

26届基础架构

岗位详情

加入投递

软件工程师-2027届

2026-06-05

普源精电· 苏州/北京/西安/上海/深圳/西南县·

27届基础架构

岗位详情

加入投递

大模型Infra架构工程师（1-2年经验）

职位描述

任职要求

相关职位推荐

政企客户专员/主管 - 佛山

智算云平台后端实习生

智算云平台后端工程师-太初云

资产与资源运营实习生（基础设施方向）

【校招实习生】AI Infra工程师-云平台方向

软件工程师-2027届