智能计算研发工程师

清程极智| 北京
校招研发本科
发布于 2026-03-25

职位描述

1. 开发跨芯片训练和推理性能加速软件,包括并不限于国产 AI 算力芯片、海外主流训推芯片;设计并实现通用的算子库、模型并行策略及高效的显存管理机制等优化手段,对标 vLLM、Sglang 等业界前沿项目。 2. 开发面向业务用户的训练和推理应用的智能计算平台,支持多种大模型与算力芯片、从软硬件一体机、裸金属节点、自持集群到云计算多场景需求下的性能交付; 3. 基于清程Bagualu训练\chitu推理等 AI Infra软件栈,开发、推广面向开发者和系统集成用户的软件用例,参与开源社区建设,撰写高质量的技术文档、代码范例,并为社区开发者提供技术支持。 4. 构建基于Bagualu清程智能计算软件栈的业务应用(大模型预\后训练、推理、微调、RAG、工作流等)场景的清程 E2E 解决方案,构建从驱动到应用层的软件栈,封装易用的 API 和软件模块,服务于上层业务及开发者生态,交付 SOTA 性能优化服务。 5. 国产算力高性能关键模块开发,面向国产AI芯片,开展通用算子库优化、编译优化、Runtime到AI框架中的流水线优化等工作。 6. 负责国家科研课题申请与实施,完成科研课题支持。

任职要求

本科及以上学历,计算机、数学、电子等相关专业,具备扎实的计算机基础知识(数据结构、算法、操作系统等),良好的技术沟通能力,快速学习和高效动手解决问题的能力,AI-coding能力。 具备以下能力优先: 1. 熟悉计算机系统架构特别是服务器计算密集型并行应用开发经验, 熟悉 CPU,GPU性能测试、剖析和性能优化,有并行计算编程经验,能使用工具分析定位作业运行时时间空间性能热点; 2. 扎实的 GPU 编程基础, GPU 生态库cuBLAS、cuDNN、NCCL 等的使用和性能调优。 掌握一到多项核心优化技术包括算子融合、高效 KV cache 管理 Attention 优化机制,动态批处理 和量化技术,对业界推理框架 vLLM\Sglang\TensorRT-LLM\Chitu 等至少一个主流框架深入熟悉。 3. 熟悉深度学习框架 Pytorch 底层机制,有 AI 编译器使用经验加分,有 Triton、TVM、MLIR、IREE 等 AI 编译器相关开发、优化经验者优先。 4. 掌握多项LLM 推理引擎关键技术,包括并不限于掌握从 TP、PP 到 DP 并行编程的实现,掌握RDMA、NVlink 等高速互联硬件上的集群通信调优,有超节点或大规模多卡训练与分布式训练实践经验者优先; 5. 熟悉 Docker、Kubernetes,了解在云原生环境下部署和运维大规模 AI 服务的挑战,有 HPC 应用开发部署经验,熟悉 Slurm\Apptainer 等并行调度优先。 6. 开源社区贡献者,有知名开源项目贡献经验者优先,具备良好的技术文档写作能力和开发者沟通能力。 7. 熟悉大模型、深度学习和科学计算常用算子库、数学库的使用和优化。

相关职位推荐