职位描述
1.研究和构建具身大模型的后训练方法体系,探索数据策略与混合训练方法,持续提升模型在多场景、多任务下的执行效果与泛化能力;
2.研究不同模型架构在后训练中的适配性与应用潜力,明确各架构对不同类型操作任务的适用边界;
3.探索高效微调与快速迁移技术,降低对海量新数据的依赖,缩短模型向新环境、新任务迁移的后训练周期;
4.研究操作记忆机制,提升模型对操作过程中历史观测、动作轨迹与环境状态变化的记忆能力,解决操作过程中的模型困惑与重复执行问题;
5.研究推理侧优化技术,包括丝滑推理、推理加速与实时反馈、推理时计算等方向,提升模型动作输出的流畅度与实时性;
6.负责后训练实验设计与大规模模型训练,持续迭代模型能力并通过真机实验验证效果,将研究成果推进到商业化项目落地;
7.跟踪具身智能、模仿学习、强化学习与多模态大模型等前沿方向,推动算法创新与方法体系演进。