职位描述
负责具身智能多模态采集数据的接入、解析、管理与处理,覆盖数据类型包:Egocentric第一视角视频数据、UMI/遥操作数据、机械臂轨迹数据、力觉/触觉传感器数据、IMU/姿态数据、语音/指令数据、多机位同步视频数据
搭建多模态训练数据处理流水线,完成数据清洗、切片、去噪、同步、对齐、格式转换。
开发训练数据可视化系统,实现以下功能:视频回放、动作轨迹回放、力觉曲线展示、多传感器时间轴同步展示、数据质量诊断看板
搭建训练数据标注体系,支持标注类型包括:动作标签、任务阶段标签、成功失败标签、语言指令标签、接触事件标签
协同算法团队,为RL/VLA/Diffusion Policy/BC/E2E模型提供高质量训练数据集
建立数据质量评估体系,识别坏数据、重复数据、漂移数据、低价值数据
优化数据存储、检索与版本管理体系,提升训练数据使用效率
支撑机器人真实世界数据闭环,持续提升模型训练效果