VLN算法实习生

自变量机器人科技(深圳)有限公司| 深圳
实习算法硕士
发布于 2026-06-17

职位描述

1. VLN 核心算法研发:负责基于视觉-语言-动作(VLA)大模型、多模态大模型(VLM/LLM)的机器人具身导航算法研发,实现长序列、跨房间的复杂指令理解与常识规划。 2.长周期记忆与建图系统开发:设计与开发机器人的中长期记忆模块(Memory Module),构建结合开放词汇(Open-Vocabulary)识别的 3D 语义拓扑地图(Semantic Topo-Map) 或 3D 空间向量数据库。 3. 优化主动探索(Active Exploration)策略、环路检测(Loop Closure)与记忆反思机制,确保机器人在动态、非结构化环境中的修图与回溯能力。 4.多模态表征与数据流构建:负责处理与融合多传感器数据(RGB-D、LiDAR、IMU等),设计高效的跨模态时空对齐(Spatial-Temporal Alignment)特征提取网络。 5.搭建和扩充 VLN/VLA 仿真环境(如 Habitat, Isaac Sim, RoboTHOR 等)下的专家轨迹数据集,优化数据采集与增强管线。 6.算法微调与强化训练:运用监督微调(SFT)、强化学习(RL)、行为克隆(BC)或偏好优化(如 DPO/PPO)等技术,在仿真与真机上训练导航策略网络。 7.真机部署与跨团队协同:配合底盘控制、机械臂抓取及 SLAM 团队,将高层 VLN 规划指令下发并转化为低层控制策略(Local Policy),实现全机协同与复杂“导航-抓取”复合任务的闭环落地。

任职要求

1. 计算机、机器人、自动化、电子信息或人工智能相关专业硕士及以上学历(优秀学士亦可)。 2. 精通 Python 和 C++,具备极强的算法实现与调优能力;熟练掌握 PyTorch 深度学习框架及分布式训练(DDP/DeepSpeed)。 核心技术背景: 3. 深入理解主流 Transformer 架构、多模态大模型(如 CLIP, DINOv2, BLIP, LLaVA 等)的底层原理。 4. 熟悉经典或前沿的 3D 视觉/建图 技术(如 3D 语义分割、YOLO-World 等开放词汇检测、3D Gaussian Splatting 或 NeRF 在场景表征中的应用)。 5. 工具链链熟练度:熟练使用 Linux 环境、ROS/ROS2 机器人操作系统;有使用 Git、Cursor/VSCode 远程并行调试的良好工程习惯。

相关职位推荐