职位描述
1. 设计面向具身机器人本体亲和的轻量化、高性能推理框架,支持CNN、Transformer、Mamba、GNN等主流网络结构;
2. 面向GPU/NPU的具身多模态算子开发与性能优化,实现内存复用、算子融合、数据排布优化、多流并行等通用加速策略;
3.对模型推理过程进行时间、功耗、内存占用分析,定位瓶颈并设计软硬协同优化策略;
4. 实现支持 PTQ/QAT 的量化工具链(INT8/INT4/FP8/MXFP8等浮点混合精度);
5. 跟进VLA、世界模型、空间智能等最新算法架构趋势,及时洞察捕捉低精度量化、AI KernelGen、投机推理等在具身本体上的模型高效推理适配技术