「长沙望城区强化学习算法工程师招聘」_2026年湖南乐孚信息技术有限公司招聘-智联招聘

职位详情

强化学习算法工程师

2-3.5万·16薪

湖南乐孚信息技术有限公司

长沙

不限

本科

01-12

工作地址

中联重科智慧产业城1

职位描述

1、开发、训练和部署用于运动和操作任务的强化学习算法；
2、构建模拟基础设施，支持大规模通用人形机器人运动和操纵策略的训练；
3、与控制团队合作，将策略集成到现有的控制堆栈中；
4、定义、测试和评估学习策略的性能指标等。

要求：

1、本科及以上学历，计算机、软件工程、自动化、电子信息、机械等相关专业；
2、熟练使用PyTorch编写生产质量代码；
3、熟悉在线和离线强化学习算法如PPO，SAC等；
4、熟悉常见的RL技术，例如：领域随机化、课程学习、奖励塑造等，具有调整这些RL算法的超参数和成本函数的经验；
5、熟悉通用ML评估工具，例如 TensorBoard、Weights&Biases等；拥有训练双足机器人运动策略经验者优先。

以担保或任何理由索取财物，扣押证照，均涉嫌违法，请提高警惕