自

VLN强化学习实习生

自变量机器人科技（深圳）有限公司| 深圳· 新安街道雪花科创大厦A座

实习算法博士

发布于 2026-06-17

职位描述

1.全身协同避障策略研发：负责研发基于深度强化学习（DRL）的机器人全身避障与运动规划算法，实现移动底盘与多自由度上肢（双臂、躯干）在复杂、动态、非结构化环境中的高动态实时协同避障。 2. VLN 与运动控制（WBC）的桥梁构建：负责承接由视觉语言导航（VLN）大模型输出的拓扑路径或语义点指令，将其转化为底层的连续动作空间策略，解决长周期高层逻辑规划与低层瞬时碰撞免疫的端到端（或模块化）融合。 3. 安全强化学习（Safe RL）与奖励机制设计：设计严谨的全身安全控制边界（Safety Filter / CBF 阻抗控制）与碰撞惩罚机制，引入受约束的强化学习算法（Constrained RL），确保策略训练过程中的动作平滑性、关节限位安全性与机器人的自平衡。 4. 仿真环境搭建与大规模并行训练：负责在 Isaac Sim / Isaac Lab (Omniverse) 或 Habitat 等仿真平台上搭建高逼真度、动态干预的物理场景；编写全机动力学运动树（URDF/MJCF），利用 GPU 大规模并行训练提升策略的收敛速度与泛化性能。 5. Sim-to-Real 真机打通与部署：解决深度强化学习在真实硬件部署上的领域漂移（Domain Randomization）问题，配合控制算法团队，将网络输出的动作（如关节角速度/扭矩目标）安全、稳定地部署在真机上。

任职要求

1. 计算机、机器人、自动化、机电一体化等相关专业硕士及以上学历（博士或极强工程能力的硕士优先）。 2. 熟练掌握经典强化学习与深度强化学习算法（如 PPO, SAC, TD3, DDPG 等）及其在连续控制（Continuous Control）领域的工程调优经验。 3. 熟悉机器人学基础（正逆运动学 Forward/Inverse Kinematics、动力学、雅可比矩阵、空间碰撞体碰撞检测检测算法）。 4. 精通 Python 和 C++，精通 PyTorch 框架。具备 Isaac Sim / Isaac Lab / MuJoCo 等至少一种主流物理仿真器的深度开发经验，熟悉 ROS2 机器人操作系统。 5. 熟练在云端算力平台（如 Linux 算力集群）上进行分布式网络训练，代码风格严谨，逻辑清晰

灵巧手算法工程师

2026-07-01

自变量机器人科技（深圳）有限公司· 深圳·

26届互联网 / 电子 / 网游

岗位详情

强化学习算法工程师

2026-06-30

自变量机器人科技（深圳）有限公司· 深圳·

26届算法

岗位详情

大模型数据平台研发工程师

2026-06-24

自变量机器人科技（深圳）有限公司· 深圳/北京·

26届大数据

岗位详情

视频训练研发工程师-2027届

2026-07-02

上海稀宇科技有限公司· 北京/上海·

27届算法

岗位详情

【校招实习生】感知算法工程师

2026-07-01

新石器无人车· 北京/上海·

26届算法

岗位详情

【校招实习生】PnC 算法工程师

2026-07-01

新石器无人车· 北京/上海·

26届算法

岗位详情

VLN强化学习实习生

职位描述

任职要求

相关职位推荐

灵巧手算法工程师

强化学习算法工程师

大模型数据平台研发工程师

视频训练研发工程师-2027届

【校招实习生】感知算法工程师

【校招实习生】PnC 算法工程师