职位描述
1. 机器人强化学习算法研究与开发: 负责前沿机器人强化学习算法的研究、设计和实现,重点方向包括:基于扩散模型/VLA的策略学习与强化学习微调、离线/off-policy RL(如IQL、CQL、RLPD等)、residual policy learning、以及长horizon任务的课程学习与稀疏奖励设计。
2. VLA大模型训练与优化: 负责Vision-Language-Action大模型(如RT-2、π0.5系列等)的训练、微调和推理优化,熟悉action chunking、多模态embedding提取等技术,提升模型在真实机器人操作任务上的性能。
3. 机器人强化学习数据与推理链路搭建: 负责真实机器人上RL在线数据收集pipeline的搭建,包括:实时推理部署、异步inference处理、trajectory数据的采集/存储/回放、奖励信号计算与标注,以及sim-to-real数据流的对接。
4. 机器人系统集成与部署: 负责将训练好的模型部署到真实机器人系统(如双臂桌面操作平台, 足式或轮式人形机器人等),熟悉ROS2通信架构、机器人运动学/动力学基础、传感器数据处理及实时控制链路,能够自主修改,搭建一个完整的推理采集,上传,训练的链路系统,并保障系统稳定运行与性能监控。
5. 仿真环境搭建与Sim2Real: 参与搭建和维护机器人仿真环境(如MuJoCo、Isaac Sim等),进行策略的仿真验证与sim-to-real迁移。
6. 技术文档撰写与分享: 撰写相关技术文档,复现和跟踪前沿论文(如PI的RL Token等),与团队进行技术交流和协作。