任职要求
1.熟练掌握C/C++/Python/Go至少一种编程语言,具备CUDA/OpenCL/CANN优化经验;
2. 熟悉PyTorch 分布式训练机制(DDP/FSDP),熟悉DeepSpeed或Megatron-LM等大规模训练框架的原理与使用;
3. 熟悉并行策略:深入理解 多维并行(DP/TP/PP/EP/CP等)的实现原理与适用场景,能够根据模型特点设计最优并行策略;
4. 具备性能分析与调优能力:熟练使用 PyTorch Profiler、NVIDIA Nsight 等工具进行性能分析,能够定位并解决计算、通信、I/O 瓶颈;
5. 深刻理解典型预训练、持续训练、RL训练等算法原理以及在技术实现时软硬件系统层面挑战