职位描述
1. 参与自研 NPU/RPU 编译器开发,完善前端、IR、优化 Pass、代码生成、运行时对接等模块。
2. 参与面向 NPU 的易编程 DSL 设计与实现,提升算子开发效率、表达能力和可维护性。
3. 对接 Triton、PyTorch、MLIR、TVM 等开源编程框架或编译生态,探索主流模型和算子在自研芯片上的落地路径。
4. 编写和优化 RPU 算子、DSL 算子、Triton 算子,包括矩阵计算、归约、Attention、激活函数、数据搬运等核心算子。
5. 参与算子性能分析与调优,包括内存访问、并行划分、数据布局、流水调度、指令生成等方向。
6. 建设编译器和算子相关测试,包括功能正确性测试、性能回归测试、端到端模型验证等。
7. 阅读和分析开源编译器、AI 框架、GPU/NPU 编程模型相关代码,为内部编译器和 DSL 设计提供参考。