VLN强化学习实习生

自变量机器人科技(深圳)有限公司| 深圳
实习算法博士
发布于 2026-06-17

职位描述

1.全身协同避障策略研发:负责研发基于深度强化学习(DRL)的机器人全身避障与运动规划算法,实现移动底盘与多自由度上肢(双臂、躯干)在复杂、动态、非结构化环境中的高动态实时协同避障。 2. VLN 与运动控制(WBC)的桥梁构建:负责承接由视觉语言导航(VLN)大模型输出的拓扑路径或语义点指令,将其转化为底层的连续动作空间策略,解决长周期高层逻辑规划与低层瞬时碰撞免疫的端到端(或模块化)融合。 3. 安全强化学习(Safe RL)与奖励机制设计:设计严谨的全身安全控制边界(Safety Filter / CBF 阻抗控制)与碰撞惩罚机制,引入受约束的强化学习算法(Constrained RL),确保策略训练过程中的动作平滑性、关节限位安全性与机器人的自平衡。 4. 仿真环境搭建与大规模并行训练:负责在 Isaac Sim / Isaac Lab (Omniverse) 或 Habitat 等仿真平台上搭建高逼真度、动态干预的物理场景;编写全机动力学运动树(URDF/MJCF),利用 GPU 大规模并行训练提升策略的收敛速度与泛化性能。 5. Sim-to-Real 真机打通与部署:解决深度强化学习在真实硬件部署上的领域漂移(Domain Randomization)问题,配合控制算法团队,将网络输出的动作(如关节角速度/扭矩目标)安全、稳定地部署在真机上。

任职要求

1. 计算机、机器人、自动化、机电一体化等相关专业硕士及以上学历(博士或极强工程能力的硕士优先)。 2. 熟练掌握经典强化学习与深度强化学习算法(如 PPO, SAC, TD3, DDPG 等)及其在连续控制(Continuous Control)领域的工程调优经验。 3. 熟悉机器人学基础(正逆运动学 Forward/Inverse Kinematics、动力学、雅可比矩阵、空间碰撞体碰撞检测检测算法)。 4. 精通 Python 和 C++,精通 PyTorch 框架。具备 Isaac Sim / Isaac Lab / MuJoCo 等至少一种主流物理仿真器的深度开发经验,熟悉 ROS2 机器人操作系统。 5. 熟练在云端算力平台(如 Linux 算力集群)上进行分布式网络训练,代码风格严谨,逻辑清晰

相关职位推荐