职位描述
1. 核心参与机器人全双工多模态交互系统的研发工作,围绕语音、视觉、文本、动作等多模态输入输出,构建低延迟、高自然度、可持续对话的交互能力;
2. 负责全双工交互链路中的关键模块设计与优化,包括实时语音理解、打断检测、轮次管理、上下文建模、多模态感知融合、对话状态管理、响应生成与行为决策等;
3. 深度参与多模态大模型、语音大模型、Omni 模型、Agent 系统在机器人场景下的工程化落地,推动模型能力与机器人交互体验的结合;
4. 负责交互系统的性能调优与全流程测试验证,包括端到端延迟、响应准确性、打断成功率、多模态理解一致性、复杂场景鲁棒性等指标优化;
5.跟踪国内外全双工交互、多模态大模型、语音交互、具身智能、人机协作等前沿技术,参与核心技术方案设计、架构选型与创新应用探索;
6. 参与技术开源项目建设、高质量技术论文撰写及核心专利布局,助力团队沉淀机器人交互领域的技术影响力。