职位描述
岗位职责:
1. 负责多模态自回归模型,扩散模型的安全可信相关研究,解释和监控大模型的推理逻辑,对模型的reasoning能力进行分析和改进。
2. 核心参与深入研究多模态自回归模型,扩散模型和人类价值观对齐的问题,包括内对齐、外对齐、自对齐等,和团队合作开发RLHF, GRPO等强化学习技术,以及对前沿强化学习路线研究。
3. 核心参与深入研究AI前沿风险,包括Deceptive alignment, Scheming, uncontrolled AI R&D, Self-replication等问题。
4. 核心参与深入研究智能体的安全可信问题,包括终端智能体,电脑智能体和具身智能体等,和团队合作开发评测工具和技术,优化智能体场景下的安全可信问题。
任职要求:
1. 硕士及以上学历,博士学历优先,计算机科学、电子信息、自动化或机器人相关专业背景优先,一年及以上工作经验者优先;
2. 具备扎实的机器学习和深度学习基础知识和算法实践能力,了解大模型的设计和训练流程;
3. 精通强化学习知识体系,熟悉主流强化学习算法如PPO、DPO等。
4 熟悉常用的深度学习框架和工具,具备良好的编程能力,熟练使用Python、C/C++等编程语言;
5. 在RSS、CoRL、ICRA、IROS机器人会议上或CVPR、NeurIPS、ICLR等人工智能会议有出色发表记录者优先。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕