「北京石景山区强化学习（大模型Agent方向）招聘」_2026年中国电子科技集团有限公司电子科学研究院招聘-智联招聘

职位详情

强化学习（大模型Agent方向）

2.5-5万

中国电子科技集团有限公司电子科学研究院

北京

3-5年

硕士

07-18

工作地址

双园路

职位描述

【岗位职责】

1、设计并实施基于端到端强化学习的Agent模型训练框架，构建Agent模型的行动空间和决策机制，实现端到端优化，优化Agent的推理链路、工具使用和长期规划能力。

2、开发适用于垂直领域的强化学习环境和奖励机制，研究自监督和半监督学习方法，减少对标注数据的依赖；

3、将Agent技术应用到实际场景，跟踪并应用最新的学术和工业界Agent技术进展。

【任职要求】

教育背景：计算机科学、人工智能、机器学习或相关领域的硕士以上学位

工作经验：2年以上大语言模型研发经验，特别是在大模型后训练优化方面；具有深厚的端到端强化学习理论基础和实践经验；

技能要求：熟悉PPO、GRPO等先进强化学习算法，并能应用于LLM-Agent开发有设计和实现 Agent行为模拟环境的经验；熟悉Pytorch深度学习框架，熟悉大语言模型在Agent系统中的角色和优化方法；优秀的Python/C++编程技能。

【加分项】

1、有ReAct、Reflexion、Tool-Learning等Agent框架设计和实现经验；

2、有解决探索-利用(Exploration-Exploitation)平衡问题的实践经验；

3、熟悉多智能体强化学习系统有垂类领域(如金融、医疗、教育等)Agent开发经验；

4、有开源Agent项目的贡献经历熟态模型压缩和高效推理技木，能够优化Agent系统性能；

5、在期刊会议发表过 Agent或强化学习相关研究论文者优先。

以担保或任何理由索取财物，扣押证照，均涉嫌违法，请提高警惕