职位描述
负责大模型分布式训练与在线推理系统的架构设计与优化,搭建高可用、高性能的AI Infra平台,支撑千亿级参数模型的训练与服务落地。
优化大规模异构算力集群的调度、存储与通信方案,整合GPU、NVLink、InfiniBand等硬件资源,提升整体硬件利用率与系统稳定性。
研究并落地多维混合并行策略(DP/TP/PP/EP/CP)、混合精度训练(FP8)、Zero、FSDP等技术,解决大模型训练中的显存开销与通信延迟问题。
负责推理服务的工程化搭建,优化模型部署流程,实现模型热更新、负载均衡、弹性扩缩容,保障服务低延迟、高吞吐运行。
搭建系统可观测性体系,设计监控、告警与性能分析方案,快速定位并解决集群调度、存储、通信等系统级瓶颈问题。
跟踪云原生与AI Infra前沿技术,结合业务需求推动架构迭代,探索编译优化、自动并行、模型服务化等方向的技术创新。