深圳 本科
广东省深圳市光明区光明大道尚智科技园
【工作职责】
1.负责规控与控制策略的强化学习建模,设计奖励函数、搭建策略网络。
2.基于 PPO、AMP 等算法,在 Isaac Gym、Isaac Lab、MuJoCo、Gazebo 等仿真环境开展大规模并行训练。
3.研发领域自适应与域随机化方法,缓解策略在真实具身智能设备(无人机、无人车、机器狗、机器人等)上的震荡、失稳与性能退化问题,提升 sim2real 成功率。
4.建立标准化仿真回归测试流程,完成万次级策略验证与规划逻辑回归测试,评估策略稳定性与失效边界。
【任职要求】
1.控制理论、计算机科学相关专业硕士/博士学历,系统修读过《深度强化学习》《非线性动力学》,理论基础扎实。
2.精通 Isaac Gym、Isaac Lab、MuJoCo 大规模仿真流程,具备千量级以上 Agent 并发训练的算力调度经验。
3.擅长奖励函数设计,有通过域随机化解决硬件失准与震荡的实操经验,具备 sim2real 相关理解与落地能力。
4.能设计自动化回归测试逻辑,量化评估 RL 策略鲁棒性上限,有标准化代码与流程记录习惯。
5.具备优秀科研与实验习惯,可系统性分析模型不收敛原因,而非盲目调参。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕