任职要求
1、计算机科学、人工智能或相关领域的本科及以上学历。
2、拥有PyTorch开发或深度定制经验,熟悉其自动微分、计算图、张量计算等核心机制。
3、有使用Deepspeed、FSDP、Megatron等框架进行大模型分布式训练的实际项目经验。
加分项:
1、熟悉GPU/NPU硬件架构,有CUDA/OpenMPI内核开发或性能剖析经验(使用Nsight, Triton等工具)。
2、具备分布式系统知识,熟悉NCCL、MPI、gRPC等通信库,对RDMA有了解者优先。
3、参与过知名深度学习框架(PyTorch, TensorFlow)或大规模分布式训练系统的开源贡献。
4、强烈的责任心、出色的分析和解决复杂问题的能力,对高性能计算充满热情。