职位详情
强化学习(大模型Agent方向)
2.5-5万
中国电子科技集团有限公司电子科学研究院
北京
3-5年
硕士
07-18
工作地址

双园路

职位描述
【岗位职责】

1、设计并实施基于端到端强化学习的Agent模型训练框架,构建Agent模型的行动空间和决策机制,实现端到端优化,优化Agent的推理链路、工具使用和长期规划能力。

2、开发适用于垂直领域的强化学习环境和奖励机制,研究自监督和半监督学习方法,减少对标注数据的依赖;

3、将Agent技术应用到实际场景,跟踪并应用最新的学术和工业界Agent技术进展。

【任职要求】

教育背景:计算机科学、人工智能、机器学习或相关领域的硕士以上学位

工作经验:2年以上大语言模型研发经验,特别是在大模型后训练优化方面;具有深厚的端到端强化学习理论基础和实践经验;

技能要求:熟悉PPO、GRPO等先进强化学习算法,并能应用于LLM-Agent开发有设计和实现 Agent行为模拟环境的经验;熟悉Pytorch深度学习框架,熟悉大语言模型在Agent系统中的角色和优化方法;优秀的Python/C++编程技能。

【加分项】

1、有ReAct、Reflexion、Tool-Learning等Agent框架设计和实现经验;

2、有解决探索-利用(Exploration-Exploitation)平衡问题的实践经验;

3、熟悉多智能体强化学习系统有垂类领域(如金融、医疗、教育等)Agent开发经验;

4、有开源Agent项目的贡献经历熟态模型压缩和高效推理技木,能够优化Agent系统性能;

5、在期刊会议发表过 Agent或强化学习相关研究论文者优先。

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请