职位描述
我们正在构建面向生命科学的下一代语言模型。本次实习的重点是大规模高质量训练数据的合成以及领域评测基准的设计与构建——这两件事直接决定模型学什么、学得好不好。 你将从学术论文、生物数据库和专利文献中系统性地提取和重组知识,构建覆盖多步推理、机制建模、蛋白设计和分子优化等高复杂度场景的数据与评测体系。
工作内容
1. 设计并实现可规模化的数据合成流水线,将人工策划与自动化生成相结合,大规模产出高难度科学推理数据。
2. 从异构知识源(论文、数据库、专利、临床报告)中提取结构化信息,转化为多层级复杂度的训练样本。
3. 构建覆盖「知识理解 → 机制推理 → 分子/蛋白设计 → 闭环优化」全链路的领域评测基准。
4. 搭建端到端的自动化评测流水线,支持模型能力的持续追踪和对比分析。
5. 与由机器学习工程师、生物信息学家和计算生物学家组成的多学科团队合作。