语音多模态算法实习生

自变量机器人科技(深圳)有限公司| 深圳/北京
实习算法本科
发布于 2026-06-17

职位描述

1. 核心参与机器人全双工多模态交互系统的研发工作,围绕语音、视觉、文本、动作等多模态输入输出,构建低延迟、高自然度、可持续对话的交互能力; 2. 负责全双工交互链路中的关键模块设计与优化,包括实时语音理解、打断检测、轮次管理、上下文建模、多模态感知融合、对话状态管理、响应生成与行为决策等; 3. 深度参与多模态大模型、语音大模型、Omni 模型、Agent 系统在机器人场景下的工程化落地,推动模型能力与机器人交互体验的结合; 4. 负责交互系统的性能调优与全流程测试验证,包括端到端延迟、响应准确性、打断成功率、多模态理解一致性、复杂场景鲁棒性等指标优化; 5.跟踪国内外全双工交互、多模态大模型、语音交互、具身智能、人机协作等前沿技术,参与核心技术方案设计、架构选型与创新应用探索; 6. 参与技术开源项目建设、高质量技术论文撰写及核心专利布局,助力团队沉淀机器人交互领域的技术影响力。

任职要求

1. 计算机科学与技术、人工智能、电子信息工程、自动化、机器人等相关专业本科及以上学历; 2. 具备以下至少一项相关经验:全双工语音交互、多模态交互系统、对话系统、Agent 系统、语音识别/理解、语音大模型、多模态大模型工程化落地; 3. 熟悉实时交互系统的基本链路,理解 ASR、VAD、TTS、LLM、对话管理、多模态感知、上下文记忆、打断机制等模块的协同方式; 4. 具备良好的工程实现能力,熟练掌握 Python/C++ 等至少一种编程语言,熟悉 PyTorch 等主流深度学习框架,具备模型推理、服务部署或性能优化经验; 5. 具备优秀的英文文献阅读与技术调研能力,能够主动跟进全双工交互、多模态大模型、Omni 模型、具身智能等前沿方向,并推动技术验证与落地; 6. 具备以下任一经验者优先:机器人交互系统研发经验、多模态大模型训练/微调经验、实时语音链路优化经验、强化学习在人机交互或语音对话中的应用经验; 7. 在语音、多模态、人机交互、机器人、人工智能等相关领域顶级会议/期刊,如 ACL、ACM MM、NeurIPS、ICASSP、INTERSPEECH、IROS、ICRA、TASLP 等发表论文,或有相关科研、竞赛、开源项目经历者优先; 8. 对前沿技术和机器人交互体验有强烈探索欲,善于将算法能力转化为真实产品体验,具备较强的自驱力、沟通表达能力和团队协作意识。

相关职位推荐