具身数据实习生

自变量机器人科技(深圳)有限公司| 深圳
实习算法本科
发布于 2026-06-17

职位描述

1. 具身操作数据全链路管线搭建:主导设计并落地覆盖具身智能场景的端到端数据处理管线,涵盖任务定义、数据采集、清洗、标注、时序对齐、格式化、存储与分发全流程。 2. 具身任务体系与标注标准定义:设计标准化的具身操作任务范式,完成复杂长程行为 / 操作任务的层级拆解,构建动作序列标注规范。 3. 全流程数据质量管控体系建设:搭建数据生产全周期的质量管控体系,制定数据生产过程中的实时监督机制、多维度质检标准与交付验收流程;开发自动化质检工具与校验规则引擎,实现对数据完整性、时序一致性、标注准确率、场景合规性、动作有效性的全维度监控与异常拦截。 4. 具身数据评测体系与数据洞察:构建系统化的具身数据评测体系,设计覆盖分布均衡性、场景覆盖率、维度有效性、价值密度、长尾适配性的多维度数据评估指标。 5. 数据生产流程与工具链优化:持续迭代数据生产流程,设计并优化 Prompt 工程、半自动 / 自动化标注方案,解决数据生产过程中的效率与质量瓶颈,规模化提升数据生产效率。

任职要求

1. 本科及以上学历,计算机、人工智能、机器人、数据科学等相关专业,具备扎实的数据工程与算法基础。 2. 深入理解具身智能 / VLA 大模型范式,熟悉具身操作多模态数据(文本、视觉、动作、传感器时序数据等)的核心特性,对数据在大模型训练中的关键作用,以及具身大模型能力边界有深刻的理解与认知。 3. 具备独立设计与搭建大规模数据处理 Pipeline 的能力,熟悉分布式数据处理框架,能够通过流程设计、Prompt 优化、自动化工具开发等手段,持续提升数据生产的质量与效率。 4. 精通 Python 编程,熟练使用 Pandas、NumPy 等核心数据处理工具,能够独立完成完整的数据处理流程开发;熟悉 Linux 环境与 Git 等常用开发工具,具备良好的工程开发规范。 5. 对数据质量与数据多样性有极高的标准,具备极强的责任心与细节敏感度,能够主动发现、定位并系统性解决数据全流程中的各类问题,具备良好的跨团队协作与沟通能力。

相关职位推荐