多模态理解算法实习生

自变量机器人科技(深圳)有限公司| 深圳/北京
实习算法硕士
发布于 2026-06-17

职位描述

1. 参与和负责面向物理世界的具身理解大模型的研发,提升具身理解模型的感知和认知能力,包括但不限于:视觉定位、复杂点指、空间理解、任务规划、人机交互等; 2. 理解模型能力边界(理解、推理、空间/时间定位等),为具身基座模型训练提供高质量数据,构建多模态数据(文本、视觉、动作等)合成、清洗、标注和格式化的数据管线; 3. 构建分布合理的视频理解数据 (人类行为、事件识别) 和高质量 Video Caption/Temporal Grounding;构造CoT真值,进行长程行为/任务拆解,提供逻辑清晰的中间推理步骤。

任职要求

1. 具有计算机视觉、自然语言处理、大模型等相关专业背景或相关行业实习经理,硕士及以上学历优先; 2. 熟练掌握主流深度学习框架,如PyTorch、Deepspeed、Megatron,并具备优秀的编程能力; 3. 对主流多模态大模型有深入理解,有实际训练和优化经验,熟悉相关任务和评测方法; 4. 熟悉强化学习、思维链(Chain-of-Thought)等技术,能够提升模型的推理能力;

相关职位推荐