职位详情
强化学习算法工程师
2-3.5万·16薪
湖南乐孚信息技术有限公司
长沙
不限
本科
01-12
工作地址

中联重科智慧产业城1

职位描述
1、开发、训练和部署用于运动和操作任务的强化学习算法;
2、构建模拟基础设施,支持大规模通用人形机器人运动和操纵策略的训练;
3、与控制团队合作,将策略集成到现有的控制堆栈中;
4、定义、测试和评估学习策略的性能指标等。
要求:
1、本科及以上学历,计算机、软件工程、自动化、电子信息、机械等相关专业;
2、熟练使用PyTorch编写生产质量代码;
3、熟悉在线和离线强化学习算法如PPO,SAC等;
4、熟悉常见的RL技术,例如:领域随机化、课程学习、奖励塑造等,具有调整这些RL算法的超参数和成本函数的经验;
5、熟悉通用ML评估工具,例如 TensorBoard、Weights&Biases等;拥有训练双足机器人运动策略经验者优先。

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请