职位描述
【岗位职责】
1、算法创新与理论突破-设计面向复杂动态环境的强化学习算法,解决样本效率低、探索-利用权衡、稀疏奖励多目标优化等关键问题。探索基于模型(Model-based RL)、分层强化学习(HRL)、元强化学习逆强化学习(IRL)等前沿方(Meta-RL)、向的技术融合与改进。
2、结合大模型技术,研发语言驱动强化学习(Language-guided RL)、世界模型(World Models)等跨模态决策框架。大规模强化学习系统构建-构建分布式强化学习训练框架,优化并行采样、离线强化学习(Offline RL)与在线学习的混合训练机制。开发高效仿真环境与智能体交互接口,支持高保真物理模拟、多智能体协同训练及超长序列决策任务。
3、了解自适应奖励函数与课程学习(Curriculum Learning)策略,加速智能体在复杂场景中的能力进化。
4、前沿探索与跨领域研究-研究多智能体强化学习(MARL)中的合作与竞争机制,解决非稳态环境、信用分配、通信效率等挑战。探索强化学习与神经符号系统(Neuro-symbolic Al)、因果推理的结合提升决策的可解释性与鲁棒性。
5、推动强化学习(RL)在大规模、高维、稀疏奖励环境中的技术落地,构建具备自我进化能力的智能系统,赋能自主协同决策等核心业务场景。
【任职要求】
1、教育背景:计算机科学、数学、控制理论、自动化、运筹学或相关领域硕/博士学历。
2、技术能力:熟悉强化学习经典算法(如DQN、PPOSAC、TD3)及最新进展,Gym、MuJoCo、ISSAC Sim等工具链。
3、对复杂系统建模与决策优化有强烈热情。
【加分项】
1、具备大规模分布式训练经验(Ray、RLlib等框架),熟悉离线强化学习、模仿学习与仿真到真实(Sim2Real)迁移技术。
2、在算法层有深度实践:稀疏奖励优化、多智能体协同、元学习与快速适应。
3、发表过RL相关论文,或主导过开源RL项目者优先。
4、熟悉PyTorch深度学习技术框架,具备从算法设计到工程落地的全流程能力。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕