「深圳光明区强化学习算法工程师招聘」_2026年中兵智能创新研究院(深圳)有限公司招聘-智联招聘

职位详情

强化学习算法工程师

1.5-3万·15薪

中兵智能创新研究院(深圳)有限公司

深圳

不限

硕士

02-03

工作地址

广东省深圳市光明区光明大道尚智科技园

职位描述

【工作职责】

1.负责规控与控制策略的强化学习建模，设计奖励函数、搭建策略网络。

2.基于 PPO、AMP 等算法，在 Isaac Gym、Isaac Lab、MuJoCo、Gazebo 等仿真环境开展大规模并行训练。

3.研发领域自适应与域随机化方法，缓解策略在真实具身智能设备（无人机、无人车、机器狗、机器人等）上的震荡、失稳与性能退化问题，提升 sim2real 成功率。

4.建立标准化仿真回归测试流程，完成万次级策略验证与规划逻辑回归测试，评估策略稳定性与失效边界。

【任职要求】

1.控制理论、计算机科学相关专业硕士/博士学历，系统修读过《深度强化学习》《非线性动力学》，理论基础扎实。

2.精通 Isaac Gym、Isaac Lab、MuJoCo 大规模仿真流程，具备千量级以上 Agent 并发训练的算力调度经验。

3.擅长奖励函数设计，有通过域随机化解决硬件失准与震荡的实操经验，具备 sim2real 相关理解与落地能力。

4.能设计自动化回归测试逻辑，量化评估 RL 策略鲁棒性上限，有标准化代码与流程记录习惯。

5.具备优秀科研与实验习惯，可系统性分析模型不收敛原因，而非盲目调参。

补充说明：优秀且经验丰富者，可适当放宽任职条件；本岗位可招聘应届毕业生，同时开放实习生岗位，实习生薪资标准为300-380元/天

以担保或任何理由索取财物，扣押证照，均涉嫌违法，请提高警惕

中兵智能创新研究院(深圳)有限公司

人工智能

20-99人 | 国企

为您推荐更多相似职位

面议

深圳本科

面议

深圳本科

2-3万

深圳本科

1.5-3万·15薪

深圳硕士

1.8-3万

深圳大专

1-2万

深圳本科

周边城市

立即申请

工作地址

职位描述

职位福利

中兵智能创新研究院(深圳)有限公司