生命科学大语言模型数据科学实习生

算秩未来| 北京
实习互联网 / 电子 / 网游本科
发布于 2026-03-23

职位描述

我们正在构建面向生命科学的下一代语言模型。本次实习的重点是大规模高质量训练数据的合成以及领域评测基准的设计与构建——这两件事直接决定模型学什么、学得好不好。 你将从学术论文、生物数据库和专利文献中系统性地提取和重组知识,构建覆盖多步推理、机制建模、蛋白设计和分子优化等高复杂度场景的数据与评测体系。 工作内容 1. 设计并实现可规模化的数据合成流水线,将人工策划与自动化生成相结合,大规模产出高难度科学推理数据。 2. 从异构知识源(论文、数据库、专利、临床报告)中提取结构化信息,转化为多层级复杂度的训练样本。 3. 构建覆盖「知识理解 → 机制推理 → 分子/蛋白设计 → 闭环优化」全链路的领域评测基准。 4. 搭建端到端的自动化评测流水线,支持模型能力的持续追踪和对比分析。 5. 与由机器学习工程师、生物信息学家和计算生物学家组成的多学科团队合作。

任职要求

1. 必备条件 - 动手快,执行力强——能把模糊的想法快速变成可运行的代码和可验证的产出。 - 具备扎实的编程能力,能独立完成从数据处理到工具开发的完整链路。 - 具有数据合成、数据标注或评测基准构建的实际经验。 - 熟悉大型语言模型的基本原理和使用方式。 - 具备从非结构化文本中提取结构化知识的能力。 - 对生物序列(DNA、RNA、蛋白质)或化学表示法(SMILES)有基本了解。 - 英文学术文献阅读能力良好。 2. 加分项 - 具有生物学、药学或化学相关背景,能独立判断科学事实的正确性。 - 具有使用特定领域语料库训练或微调 LLM 的经验。 - 了解相关的公开数据集与知识库:UniProt、ChEMBL、KEGG、PDB、PubChem 等。 - 熟悉 NLP 评估流程与 benchmark 设计方法论。 - 有与 Claude Code、Codex 等 AI 编程工具良好协作的经验,善于利用先进工具提升生产效率。 3. 思维方式 - 你对用数据驱动的方式解决科学问题充满好奇心。 - 你既关注数据的规模效率,也在意每一条数据的科学严谨性。 - 你能从容适应跨学科的研究环境,乐于从机器学习和生命科学两侧的文献中学习。

相关职位推荐