职位描述
岗位职责:1、研究基于强化学习的(多模态)大模型后训练理论与算法,解决探索能力弱、稀疏奖励、奖励hacking、训练不稳定、训练效率低等问题,提升算法的性能与采样效率。
2、面向大模型安全问题,探索强化学习驱动的大模型内生安全演化机制,构建多维度安全评价指标体系,实现安全能力的自适应演化。
3、紧跟强化学习前沿动向,开展强化学习前沿理论与算法研究,探索大模型强化学习高价值场景。
任职要求:1、博士学历,计算机科学 / 人工智能 / 应用数学等相关专业;
2、在强化学习、人工智能方面有扎实的研究基础与成果,熟悉(多模态)大模型、AI安全、智能体等前沿方向;
3. 具备良好的数学建模与代码实现能力,精通 Python,熟悉 PyTorch/TensorFlow 等AI框架。
4、具有良好的沟通协作能力,工作积极主动,能够与团队融洽合作,一起探索新技术,推进技术进步。
加分项:
1、具有优秀的理论算法基础,在NeurIPS、ICLR、ICML等顶级会议/期刊上发表论文者优先;
2、具有优秀的代码能力,曾在编程竞赛中取得优异成绩者优先
3、熟悉大模型强化学习训练框架(例如VERL、OpenRLHF、TRL)
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕