职位描述
【岗位职责】
1、设计并实施基于端到端强化学习的Agent模型训练框架,构建Agent模型的行动空间和决策机制,实现端到端优化,优化Agent的推理链路、工具使用和长期规划能力。
2、开发适用于垂直领域的强化学习环境和奖励机制,研究自监督和半监督学习方法,减少对标注数据的依赖;
3、将Agent技术应用到实际场景,跟踪并应用最新的学术和工业界Agent技术进展。
【任职要求】
教育背景:计算机科学、人工智能、机器学习或相关领域的硕士以上学位
工作经验:2年以上大语言模型研发经验,特别是在大模型后训练优化方面;具有深厚的端到端强化学习理论基础和实践经验;
技能要求:熟悉PPO、GRPO等先进强化学习算法,并能应用于LLM-Agent开发有设计和实现 Agent行为模拟环境的经验;熟悉Pytorch深度学习框架,熟悉大语言模型在Agent系统中的角色和优化方法;优秀的Python/C++编程技能。
【加分项】
1、有ReAct、Reflexion、Tool-Learning等Agent框架设计和实现经验;
2、有解决探索-利用(Exploration-Exploitation)平衡问题的实践经验;
3、熟悉多智能体强化学习系统有垂类领域(如金融、医疗、教育等)Agent开发经验;
4、有开源Agent项目的贡献经历熟态模型压缩和高效推理技木,能够优化Agent系统性能;
5、在期刊会议发表过 Agent或强化学习相关研究论文者优先。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕