招商金科-计算机图像算法工程师(J29291)

招商局太平湾| 深圳
实习硕士
发布于 2026-03-02

职位描述

1.研发面向贸易物流场景的多模态大模型与视觉单证模型:针对模糊、倾斜、遮挡、多语言混排的港口/物流单证图像,研发高鲁棒性的OCR+Layout+NER联合模型;优化多模态大模型(如LLaVA、Qwen-VL、InternVL)在垂直领域的微调策略,提升对贸易术语、HS编码、金额字段等关键信息的理解精度。 2.设计大模型驱动的图像理解、生成与编辑解决方案:构建基于大模型的单证结构化理解系统,实现从图像到结构化JSON/API的端到端输出;探索可控图像生成与编辑能力,用于单证模板合成、数据增强、异常样本修复等场景。 3.构建大规模视觉单证数据处理与训练基础设施:设计端到端的多模态数据 pipeline,涵盖图像清洗、版面分析、文本标注、实体对齐、质量评估;建立百万级真实+合成单证数据集,支持模型持续迭代与泛化能力提升。 4.推动多模态大模型在核心产品中的规模化落地:与产品、工程团队协作,将模型集成至智能审单、自动报关、跨境结算等系统;优化推理性能,支持高并发、低延迟的线上服务,保障99.9%+的SLA可用性; 5.探索多模态智能体(Multimodal Agent)在视觉任务中的创新应用:研究视觉-语言智能体在单证纠错、跨文档一致性校验、异常交易识别等任务中的应用;结合RAG、工具调用(Function Calling)等机制,构建可交互、可推理的视觉决策系统。

任职要求

1、硕士及以上学历,计算机科学、电子工程、自动化、人工智能等相关专业; 2、深入掌握计算机视觉核心技术:目标检测、OCR、图像分割、多模态对齐、视觉语言预训练等; 3、精通 PyTorch / TensorFlow,熟悉 HuggingFace Transformers、MMEngine、Detectron2 等主流CV框架; 4、具备扎实的工程实现能力,熟悉模型压缩(量化/剪枝)、ONNX转换、TensorRT部署、GPU加速等技术; 5、熟悉Docker、Kubernetes、FastAPI等工程化工具链,能独立完成模型服务化; 6、在 CVPR、ICCV、ECCV、NeurIPS、ICLR 等顶会发表过多模态/OCR/文档理解相关论文优先;有金融、海关、物流、贸易单证等领域的图像算法落地经验优先; 7、对真实产业问题有强烈兴趣,能从“一张模糊提单”中看到技术挑战与业务价值;沟通清晰,能向非技术团队解释模型局限与改进路径。

相关职位推荐