优才-具身智能算法工程师(后训练 Infra 方向)-觅蜂子公司

智元创新(上海)科技股份有限公司| 上海
校招硕士
发布于 2026-06-16

职位描述

1. 负责具身智能后训练框架的设计与迭代,构建支撑真机强化学习的规模化训练能力。 2. 深入理解强化学习、模仿学习、在线学习等后训练算法(PPO/SAC/DAgger/RLHF 等),基于算法特性设计高效的训练架构与数据流。 3. 设计并实现云端多机多卡训练 + 边缘多机多本体 rollout 的分布式异步训练架构,支撑从单机到百台规模的扩展。 4. 构建多种后训练算法的统一框架支撑,实现新算法低成本快速接入与验证。 5. 负责云边通信体系设计(权重同步、数据回传、时延隐藏),保障大规模分布式训练的效率与稳定性。 6. 跟进后训练领域前沿进展(π0.6 / RLT / flow matching RL 等),具备快速复现并工程化落地新算法的能力。

任职要求

1. 计算机、AI、机器人等相关专业硕士及以上学历。 2. 具备扎实的 Python/C++ 编程能力,熟悉分布式系统设计与实现。 3. 熟悉强化学习算法(PPO/SAC/DAgger 等),深入理解 on-policy / off-policy / online RL 的训练特性、数据需求与系统约束。 4. 熟悉 PyTorch 分布式训练,了解 RPC / gRPC / ZMQ 等通信框架,有云边协同或异构集群训练经验者优先。 5. 具备良好的系统设计能力,能在功能、效率、稳定性之间做合理取舍。 6. 能阅读并复现 RL/VLA 相关顶会论文,将算法需求转化为系统设计。

相关职位推荐