强化学习算法工程师

自变量机器人科技(深圳)有限公司| 深圳
校招算法本科
发布于 2026-06-30

职位描述

1. 机器人强化学习算法研究与开发: 负责前沿机器人强化学习算法的研究、设计和实现,重点方向包括:基于扩散模型/VLA的策略学习与强化学习微调、离线/off-policy RL(如IQL、CQL、RLPD等)、residual policy learning、以及长horizon任务的课程学习与稀疏奖励设计。 2. VLA大模型训练与优化: 负责Vision-Language-Action大模型(如RT-2、π0.5系列等)的训练、微调和推理优化,熟悉action chunking、多模态embedding提取等技术,提升模型在真实机器人操作任务上的性能。 3. 机器人强化学习数据与推理链路搭建: 负责真实机器人上RL在线数据收集pipeline的搭建,包括:实时推理部署、异步inference处理、trajectory数据的采集/存储/回放、奖励信号计算与标注,以及sim-to-real数据流的对接。 4. 机器人系统集成与部署: 负责将训练好的模型部署到真实机器人系统(如双臂桌面操作平台, 足式或轮式人形机器人等),熟悉ROS2通信架构、机器人运动学/动力学基础、传感器数据处理及实时控制链路,能够自主修改,搭建一个完整的推理采集,上传,训练的链路系统,并保障系统稳定运行与性能监控。 5. 仿真环境搭建与Sim2Real: 参与搭建和维护机器人仿真环境(如MuJoCo、Isaac Sim等),进行策略的仿真验证与sim-to-real迁移。 6. 技术文档撰写与分享: 撰写相关技术文档,复现和跟踪前沿论文(如PI的RL Token等),与团队进行技术交流和协作。

任职要求

基础技能 1. 计算机科学基础: 扎实的计算机科学基础,包括数据结构、算法、操作系统、Linux系统管理等。 2. 编程能力: 熟练掌握Python,熟悉C++;具备多机多仓库协作开发经验。 深度学习框架: 熟练掌握PyTorch,具备分布式训练、混合精度训练等实际工程经验。 专业技能 1. 强化学习(RL): 深入理解强化学习原理,熟悉on-policy(PPO)和off-policy(SAC、TD3、IQL、CQL)算法;了解offline RL、residual RL、diffusionRL等进阶方向;理解reward shaping、课程学习、UTD ratio调优等实践技巧。 2. 生成式策略模型: 熟悉Diffusion Policy、Flow Matching、Action Chunking Transformer等生成式机器人策略模型的原理与实现。 3. VLA/大模型: 理解Vision-Language-Action模型架构(Transformer backbone、多模态token化、autoregressive action decoding),熟悉预训练、微调流程。 4. 机器人系统: 熟悉ROS2通信框架,了解机械臂运动学、关节控制、遥操作数据采集(如ALOHA/ACT范式)等;有真实机器人调试经验者优先。 5. 仿真与Sim2Real: 有MuJoCo、Isaac Sim/Gym、或其他机器人仿真平台使用经验;了解domain randomization、sim-to-real迁移技术。 6. 计算机视觉: 具备CV基础,了解ViT、视觉编码器在embodied AI中的应用。 加分项 1. 在顶级学术会议(NeurIPS、ICML、ICLR、CoRL、RSS、ICRA等)或期刊发表过机器人学习相关论文。 2. 有真实机器人RL训练落地经验(非纯仿真)。 3. 熟悉多机协同开发工具链(如多仓库管理、远程开发、SSH tunnel调试等)。 4. 有开源项目贡献经验,或复现过知名robotics/RL论文。 5. 熟悉LeRobot、openpi等开源机器人学习框架。

相关职位推荐