职位描述
【方向:预训练、Omni大模型与数据策略】
利用大规模人类视频(Ego4D、Open X-Embodiment)及无本体交互数据,预训练多模态基座模型(视觉-语言-动作联合),作为VLA主干backbone。
探索scaling law,设计模型架构(如Transformer、DiT)与预训练任务(MAE、动作预测、对比学习)。
基于VLM/VLA大模型构建自动标注管线,对视频、轨迹、触觉信号进行结构化标注(动作阶段、接触事件、成功/失败标签),降低人工成本。
设计主动学习策略,从海量数据中筛选高价值样本(失败轨迹、长尾场景)。
牵头制定数据混合策略:真机遥操作数据 : 无本体人类视频 : 仿真合成数据的最优比例,设计消融实验验证,建立数据价值评估模型。