职位详情
强化学习算法工程师
1.5-3万·15薪
中兵智能创新研究院(深圳)有限公司
深圳
不限
硕士
02-03
工作地址

广东省深圳市光明区光明大道尚智科技园

职位描述

【工作职责】

1.负责规控与控制策略的强化学习建模,设计奖励函数、搭建策略网络。

2.基于 PPO、AMP 等算法,在 Isaac Gym、Isaac Lab、MuJoCo、Gazebo 等仿真环境开展大规模并行训练。

3.研发领域自适应与域随机化方法,缓解策略在真实具身智能设备(无人机、无人车、机器狗、机器人等)上的震荡、失稳与性能退化问题,提升 sim2real 成功率。

4.建立标准化仿真回归测试流程,完成万次级策略验证与规划逻辑回归测试,评估策略稳定性与失效边界。

【任职要求】

1.控制理论、计算机科学相关专业硕士/博士学历,系统修读过《深度强化学习》《非线性动力学》,理论基础扎实。

2.精通 Isaac Gym、Isaac Lab、MuJoCo 大规模仿真流程,具备千量级以上 Agent 并发训练的算力调度经验。

3.擅长奖励函数设计,有通过域随机化解决硬件失准与震荡的实操经验,具备 sim2real 相关理解与落地能力。

4.能设计自动化回归测试逻辑,量化评估 RL 策略鲁棒性上限,有标准化代码与流程记录习惯。

5.具备优秀科研与实验习惯,可系统性分析模型不收敛原因,而非盲目调参。

补充说明:优秀且经验丰富者,可适当放宽任职条件;本岗位可招聘应届毕业生,同时开放实习生岗位,实习生薪资标准为300-380元/天

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请