自

强化学习算法工程师

自变量机器人科技（深圳）有限公司| 深圳· 新安街道雪花科创大厦A座

校招算法本科

发布于 2026-06-30

职位描述

1. 机器人强化学习算法研究与开发：负责前沿机器人强化学习算法的研究、设计和实现，重点方向包括：基于扩散模型/VLA的策略学习与强化学习微调、离线/off-policy RL（如IQL、CQL、RLPD等）、residual policy learning、以及长horizon任务的课程学习与稀疏奖励设计。 2. VLA大模型训练与优化：负责Vision-Language-Action大模型（如RT-2、π0.5系列等）的训练、微调和推理优化，熟悉action chunking、多模态embedding提取等技术，提升模型在真实机器人操作任务上的性能。 3. 机器人强化学习数据与推理链路搭建：负责真实机器人上RL在线数据收集pipeline的搭建，包括：实时推理部署、异步inference处理、trajectory数据的采集/存储/回放、奖励信号计算与标注，以及sim-to-real数据流的对接。 4. 机器人系统集成与部署：负责将训练好的模型部署到真实机器人系统（如双臂桌面操作平台, 足式或轮式人形机器人等），熟悉ROS2通信架构、机器人运动学/动力学基础、传感器数据处理及实时控制链路，能够自主修改，搭建一个完整的推理采集，上传，训练的链路系统，并保障系统稳定运行与性能监控。 5. 仿真环境搭建与Sim2Real：参与搭建和维护机器人仿真环境（如MuJoCo、Isaac Sim等），进行策略的仿真验证与sim-to-real迁移。 6. 技术文档撰写与分享：撰写相关技术文档，复现和跟踪前沿论文（如PI的RL Token等），与团队进行技术交流和协作。

任职要求

基础技能 1. 计算机科学基础：扎实的计算机科学基础，包括数据结构、算法、操作系统、Linux系统管理等。 2. 编程能力：熟练掌握Python，熟悉C++；具备多机多仓库协作开发经验。深度学习框架：熟练掌握PyTorch，具备分布式训练、混合精度训练等实际工程经验。专业技能 1. 强化学习（RL）：深入理解强化学习原理，熟悉on-policy（PPO）和off-policy（SAC、TD3、IQL、CQL）算法；了解offline RL、residual RL、diffusionRL等进阶方向；理解reward shaping、课程学习、UTD ratio调优等实践技巧。 2. 生成式策略模型：熟悉Diffusion Policy、Flow Matching、Action Chunking Transformer等生成式机器人策略模型的原理与实现。 3. VLA/大模型：理解Vision-Language-Action模型架构（Transformer backbone、多模态token化、autoregressive action decoding），熟悉预训练、微调流程。 4. 机器人系统：熟悉ROS2通信框架，了解机械臂运动学、关节控制、遥操作数据采集（如ALOHA/ACT范式）等；有真实机器人调试经验者优先。 5. 仿真与Sim2Real：有MuJoCo、Isaac Sim/Gym、或其他机器人仿真平台使用经验；了解domain randomization、sim-to-real迁移技术。 6. 计算机视觉：具备CV基础，了解ViT、视觉编码器在embodied AI中的应用。加分项 1. 在顶级学术会议（NeurIPS、ICML、ICLR、CoRL、RSS、ICRA等）或期刊发表过机器人学习相关论文。 2. 有真实机器人RL训练落地经验（非纯仿真）。 3. 熟悉多机协同开发工具链（如多仓库管理、远程开发、SSH tunnel调试等）。 4. 有开源项目贡献经验，或复现过知名robotics/RL论文。 5. 熟悉LeRobot、openpi等开源机器人学习框架。

灵巧手算法工程师

2026-07-01

自变量机器人科技（深圳）有限公司· 深圳·

26届互联网 / 电子 / 网游

岗位详情

世界模型算法工程师（北京/深圳）

2026-07-01

自变量机器人科技（深圳）有限公司· 深圳/北京·

26届算法

岗位详情

大模型数据平台研发工程师

2026-06-24

自变量机器人科技（深圳）有限公司· 深圳/北京·

26届大数据

岗位详情

视频训练研发工程师-2027届

2026-07-02

上海稀宇科技有限公司· 北京/上海·

27届算法

岗位详情

【校招实习生】感知算法工程师

2026-07-01

新石器无人车· 北京/上海·

26届算法

岗位详情

【校招实习生】PnC 算法工程师

2026-07-01

新石器无人车· 北京/上海·

26届算法

岗位详情

强化学习算法工程师

职位描述

任职要求

相关职位推荐

灵巧手算法工程师

世界模型算法工程师（北京/深圳）

大模型数据平台研发工程师

视频训练研发工程师-2027届

【校招实习生】感知算法工程师

【校招实习生】PnC 算法工程师