职位描述
1.研发面向贸易物流场景的多模态大模型与视觉单证模型:针对模糊、倾斜、遮挡、多语言混排的港口/物流单证图像,研发高鲁棒性的OCR+Layout+NER联合模型;优化多模态大模型(如LLaVA、Qwen-VL、InternVL)在垂直领域的微调策略,提升对贸易术语、HS编码、金额字段等关键信息的理解精度。
2.设计大模型驱动的图像理解、生成与编辑解决方案:构建基于大模型的单证结构化理解系统,实现从图像到结构化JSON/API的端到端输出;探索可控图像生成与编辑能力,用于单证模板合成、数据增强、异常样本修复等场景。
3.构建大规模视觉单证数据处理与训练基础设施:设计端到端的多模态数据 pipeline,涵盖图像清洗、版面分析、文本标注、实体对齐、质量评估;建立百万级真实+合成单证数据集,支持模型持续迭代与泛化能力提升。
4.推动多模态大模型在核心产品中的规模化落地:与产品、工程团队协作,将模型集成至智能审单、自动报关、跨境结算等系统;优化推理性能,支持高并发、低延迟的线上服务,保障99.9%+的SLA可用性;
5.探索多模态智能体(Multimodal Agent)在视觉任务中的创新应用:研究视觉-语言智能体在单证纠错、跨文档一致性校验、异常交易识别等任务中的应用;结合RAG、工具调用(Function Calling)等机制,构建可交互、可推理的视觉决策系统。