科研数据评测与项目交付方向

北京科学智能研究院| 北京
社招博士
发布于 2026-07-03

职位描述

1. 科研数据与模型评测体系建设 设计、搭建并持续迭代覆盖多模态科研数据的评测基准、评测集与评测方法,包括反应、物质、谱图、知识图谱、文献、语料库等数据类型,形成可用于项目验收、产品迭代和对外展示的 benchmark 资产。 2. 化学数据库与科研语料库评测落地 围绕化学数据库、科学语料库及相关模型能力,设计数据质量、结构化准确性、知识抽取效果、模型问答能力、可追溯性、覆盖率、一致性等关键指标,组织内部测评、抽样核验与问题归因,支撑项目阶段验收与综合验收。 3. LLM-as-a-Judge / LLM-as-a-Verifier 评测流水线建设 设计并落地基于大模型的自动化评测流水线,包括 prompt 设计、CoT 设计、多 agent 协同、批处理、可控解码、结果聚合与一致性校准,重点解决专业科研场景下大模型评测的幻觉、偏差和稳定性问题。 4. 专用评测模型训练与优化 基于领域评测数据集,参与 fine-tune 或训练专用打分器、分类器、embedding 模型,与 LLM-as-a-Judge / LLM-as-a-Verifier 路径互补,提升评测结果的稳定性、专业性与可量化程度。 5. 评测驱动的算法、数据与产品迭代 主导或参与评测结果分析与问题归因,输出可执行的算法优化、数据采集、数据清洗、标注策略与产品改进建议,与算法、数据、产品、工程团队形成“评测—迭代—再评测”的闭环机制。 6. 科研项目统筹与交付管理 将既有项目书、年度任务和验收要求转化为可执行的里程碑计划,明确交付物清单、验收口径、质量目标与风险节点,持续跟踪项目进度,推动阶段性任务和综合验收按期完成。

任职要求

1. 教育背景与专业基础 硕士及以上学历,化学、化工、化学信息学、材料、生物医药、计算机、人工智能等相关专业优先,博士优先;具备跨学科科研经历或 AI for Science 项目经验者优先。 2. 科研数据专业判断能力 至少在化学、材料、生物医药或相关科研数据领域具备扎实的专业基础,能够独立判断数据、知识抽取结果和模型输出的正确性与质量,具备设计专业评测金标和质量标准的能力。 3. 评测方法论能力 理解 benchmark 设计、评测集构建、采样策略、指标体系设计、显著性检验、人工金标一致性校准等基础方法,具备数据集、评测集或模型评测项目经验者优先。 4. LLM 应用工程能力 熟悉主流大模型 API 与开源大模型,具备 prompt 工程、CoT、多 agent 流水线设计能力,了解 LLM-as-a-Judge / LLM-as-a-Verifier 的方法、适用边界与常见陷阱。 5. 机器学习与模型训练能力 熟悉 PyTorch、HuggingFace 等主流框架,具备 fine-tune 或训练分类器、打分器、embedding 模型等小模型的实际经验,能够将评测数据转化为可训练、可验证的模型优化资产。 6. 编程与数据处理能力 熟练使用 Python、SQL、Pandas 等工具,能够独立完成数据抽样、清洗、指标计算、评测流水线编写、结果分析与可视化;能够使用 Trae、Cursor、Codex 等 AI 编程工具提升脚本开发和数据分析效率。 加分项 1. 具备一作或通讯作者论文发表经验,特别是 benchmark、dataset、评测方法、科学数据、AI for Science 相关方向; 2. 有公开 benchmark / dataset 发布经验,或参与过 HuggingFace Evaluate、EleutherAI lm-eval-harness、Stanford HELM 等开源评测框架; 3. 有 ChemLLM、MoLFormer、Uni-Mol 等领域大模型的使用、微调或评测经验; 4. 熟悉化学数据库、反应数据库、谱图数据库、知识图谱、科研文献结构化等相关数据产品; 5. 有专利、软著、行业标准或国家标准相关材料组织经验; 6. 英文能力优秀,能够直接阅读海外文献、数据资源与评测论文,并支持国际学术合作沟通。

相关职位推荐