职位描述
1. 数据体系建设与分类:协助设计并维护数据分类与标签体系,按领域、主题、任务类型、质量等级等维度对海量数据进行精细化管理,为前期数据质量验收提供标准。
2. 数据配比与闭环迭代:进行训练阶段的数据配比实验;协助分析模型评测结果与训练反馈,定位数据缺口与偏差,推动数据的持续优化与迭代。
3. 自动化管线研发:参与研发数据分类的自动化管线,提升数据处理的工程化效率。
4. 模型训练与微调:参与训练和微调用于数据分类、质量评估的专属大语言模型(如分类模型、打分模型等)。
5. 前沿方法调研:调研业界前沿的数据筛选与质量评估方法,为领域模型的高效训练提供数据基础。"