职位描述
1. 负责具身智能后训练框架的设计与迭代,构建支撑真机强化学习的规模化训练能力。
2. 深入理解强化学习、模仿学习、在线学习等后训练算法(PPO/SAC/DAgger/RLHF 等),基于算法特性设计高效的训练架构与数据流。
3. 设计并实现云端多机多卡训练 + 边缘多机多本体 rollout 的分布式异步训练架构,支撑从单机到百台规模的扩展。
4. 构建多种后训练算法的统一框架支撑,实现新算法低成本快速接入与验证。
5. 负责云边通信体系设计(权重同步、数据回传、时延隐藏),保障大规模分布式训练的效率与稳定性。
6. 跟进后训练领域前沿进展(π0.6 / RLT / flow matching RL 等),具备快速复现并工程化落地新算法的能力。