职位描述
1. 参与和负责面向物理世界的具身理解大模型的研发,提升具身理解模型的感知和认知能力,包括但不限于:视觉定位、复杂点指、空间理解、任务规划、人机交互等;
2. 理解模型能力边界(理解、推理、空间/时间定位等),为具身基座模型训练提供高质量数据,构建多模态数据(文本、视觉、动作等)合成、清洗、标注和格式化的数据管线;
3. 构建分布合理的视频理解数据 (人类行为、事件识别) 和高质量 Video Caption/Temporal Grounding;构造CoT真值,进行长程行为/任务拆解,提供逻辑清晰的中间推理步骤。