职位描述
上海人工智能实验室安全团队专注于研究大模型和智能体的可信和安全,致力于从理解和提升角度推动人工智能向善发展。如果你对可信推理、安全攻防、对齐、可解释性等技术充满热情,或是对人工智能未来的涌现能力和潜在风险抱有深切的责任感,欢迎加入大模型安全团队。团队研究成果显著,多篇研究成果发表在顶级会议上,如CVPR Best Paper Award Candidate, 连续两年ACL Outstanding Paper Award, ICLR Oral和多篇ACL Oral等。
1. 核心参与深入研究大模型和人类价值观对齐的问题,包括内对齐、外对齐、自对齐等,和团队合作开发RLHF, GRPO等强化学习技术,以及对前沿强化学习路线研究。
2. 负责AI 智能体全链路安全研究,覆盖终端智能体、电脑操作智能体、具身智能体等复杂交互场景。构建智能体安全评测体系,设计评测基准、风险数据集与自动化评测工具,支撑智能体安全能力量化评估。
3. 开展智能体轨迹级安全监控与细粒度风险诊断,定位风险来源、失效模式与危害后果,实现可解释风险溯源。
4. 研究智能体安全对齐技术,包括Agentic SFT和RL,研发安全护栏、防御机制与对齐优化方法。