职位描述
1. 负责具身智能训练效率的度量、分析与系统性优化,覆盖预训练与后训练全链路。
2. 深入理解不同模型架构(Transformer / Diffusion / Flow Matching 等)与训练算法(IL/RL/BC 等)的计算特性,针对性设计优化方案。
3. 构建训练效率监控体系,包括 GPU 利用率、训练吞吐、通信效率、数据加载延迟等核心指标的可视化与自动化追踪。
4. 模型训练效率优化:算子融合、CUDA graph、kernel 调优等,提升单卡和多卡计算效率。
5. 并行与通信效率优化:梯度同步、云边通信、权重分发等通信开销分析与优化,支撑百台规模训练不退化。
6. 数据加载效率优化:数据预处理 pipeline、IO 吞吐优化,消除数据侧瓶颈。