智

优才-具身智能算法工程师（后训练 Infra 方向）-觅蜂子公司

智元创新（上海）科技股份有限公司| 上海· 周邓公路5358号

校招硕士

发布于 2026-06-16

职位描述

1. 负责具身智能后训练框架的设计与迭代，构建支撑真机强化学习的规模化训练能力。 2. 深入理解强化学习、模仿学习、在线学习等后训练算法（PPO/SAC/DAgger/RLHF 等），基于算法特性设计高效的训练架构与数据流。 3. 设计并实现云端多机多卡训练 + 边缘多机多本体 rollout 的分布式异步训练架构，支撑从单机到百台规模的扩展。 4. 构建多种后训练算法的统一框架支撑，实现新算法低成本快速接入与验证。 5. 负责云边通信体系设计（权重同步、数据回传、时延隐藏），保障大规模分布式训练的效率与稳定性。 6. 跟进后训练领域前沿进展（π0.6 / RLT / flow matching RL 等），具备快速复现并工程化落地新算法的能力。

任职要求

1. 计算机、AI、机器人等相关专业硕士及以上学历。 2. 具备扎实的 Python/C++ 编程能力，熟悉分布式系统设计与实现。 3. 熟悉强化学习算法（PPO/SAC/DAgger 等），深入理解 on-policy / off-policy / online RL 的训练特性、数据需求与系统约束。 4. 熟悉 PyTorch 分布式训练，了解 RPC / gRPC / ZMQ 等通信框架，有云边协同或异构集群训练经验者优先。 5. 具备良好的系统设计能力，能在功能、效率、稳定性之间做合理取舍。 6. 能阅读并复现 RL/VLA 相关顶会论文，将算法需求转化为系统设计。

越南市场交付/解决方案

2026-06-22

智元创新（上海）科技股份有限公司· 巴亭·

26届

岗位详情

加入投递

世界模型研究员- Genie业务部

2026-06-17

智元创新（上海）科技股份有限公司· 上海/北京·

26届

岗位详情

加入投递

优才-具身智能算法研究员（预训练方向）-觅蜂子公司

2026-06-17

智元创新（上海）科技股份有限公司· 上海·

26届

岗位详情

加入投递

NOBO诺博橡胶-项目专员1199

2026-06-25

长城汽车· 保定市-徐水区·

26届

岗位详情

加入投递

泰州分公司-储备干部5401

2026-06-01

长城汽车· 泰州市-高港区·

26届

岗位详情

加入投递

诺博汽车-平湖工厂-车间技术岗

2026-05-21

长城汽车· 嘉兴市-平湖市·

26届

岗位详情

加入投递

优才-具身智能算法工程师（后训练 Infra 方向）-觅蜂子公司

职位描述

任职要求

相关职位推荐

越南市场交付/解决方案

世界模型研究员- Genie业务部

优才-具身智能算法研究员（预训练方向）-觅蜂子公司

NOBO诺博橡胶-项目专员1199

泰州分公司-储备干部5401

诺博汽车-平湖工厂-车间技术岗