优才-训练AI Infra系统优化工程师-中央研发部

智元创新(上海)科技股份有限公司| 上海/北京
校招本科
发布于 2026-06-17

职位描述

1. 大规模分布式训练系统:在千卡级GPU/NPU集群上构建稳定、高效的分布式训练系统,支持VLA、WM等具身大模型的预训练与微调; 2. 训练数据加载流水线:构建从存储到GPU/NPU显存的高吞吐数据流水线,实现高效的数据预取、采样与加载,消除训练过程中的I/O Stall; 3. 训练稳定性保障:解决大规模训练中的故障恢复、Checkpoint 管理、梯度异常等问题,确保长时间训练任务的稳定运行。

任职要求

1.熟练掌握C/C++/Python/Go至少一种编程语言,具备CUDA/OpenCL/CANN优化经验; 2. 熟悉PyTorch 分布式训练机制(DDP/FSDP),熟悉DeepSpeed或Megatron-LM等大规模训练框架的原理与使用; 3. 熟悉并行策略:深入理解 多维并行(DP/TP/PP/EP/CP等)的实现原理与适用场景,能够根据模型特点设计最优并行策略; 4. 具备性能分析与调优能力:熟练使用 PyTorch Profiler、NVIDIA Nsight 等工具进行性能分析,能够定位并解决计算、通信、I/O 瓶颈; 5. 深刻理解典型预训练、持续训练、RL训练等算法原理以及在技术实现时软硬件系统层面挑战

相关职位推荐