职位描述
1. 科研数据与模型评测体系建设
设计、搭建并持续迭代覆盖多模态科研数据的评测基准、评测集与评测方法,包括反应、物质、谱图、知识图谱、文献、语料库等数据类型,形成可用于项目验收、产品迭代和对外展示的 benchmark 资产。
2. 化学数据库与科研语料库评测落地
围绕化学数据库、科学语料库及相关模型能力,设计数据质量、结构化准确性、知识抽取效果、模型问答能力、可追溯性、覆盖率、一致性等关键指标,组织内部测评、抽样核验与问题归因,支撑项目阶段验收与综合验收。
3. LLM-as-a-Judge / LLM-as-a-Verifier 评测流水线建设
设计并落地基于大模型的自动化评测流水线,包括 prompt 设计、CoT 设计、多 agent 协同、批处理、可控解码、结果聚合与一致性校准,重点解决专业科研场景下大模型评测的幻觉、偏差和稳定性问题。
4. 专用评测模型训练与优化
基于领域评测数据集,参与 fine-tune 或训练专用打分器、分类器、embedding 模型,与 LLM-as-a-Judge / LLM-as-a-Verifier 路径互补,提升评测结果的稳定性、专业性与可量化程度。
5. 评测驱动的算法、数据与产品迭代
主导或参与评测结果分析与问题归因,输出可执行的算法优化、数据采集、数据清洗、标注策略与产品改进建议,与算法、数据、产品、工程团队形成“评测—迭代—再评测”的闭环机制。
6. 科研项目统筹与交付管理
将既有项目书、年度任务和验收要求转化为可执行的里程碑计划,明确交付物清单、验收口径、质量目标与风险节点,持续跟踪项目进度,推动阶段性任务和综合验收按期完成。