「上海浦东新区强化学习工程师 (RL/决策智能方向)（周期6个月统招本科）招聘」

职位详情

强化学习工程师 (RL/决策智能方向)（周期6个月统招本科）

2.5-3万

成都迈思信息技术有限公司

上海

5-10年

本科

01-26

工作地址

交通银行软件开发中心附近

职位描述

1.专业背景：本科及以上学历，机器学习、运筹学或控制论相关专业；8年以上工作经验，具备强化学习（RL）在推荐、营销领域的实际落地经验。
2.理论基础：深刻理解 MDP、Bellman Equation，熟悉 DQN, PPO, DDPG, SAC 等主流 RL 算法及其变体；熟悉 Actor-Critic 架构细节。
3.框架技能：熟练使用 Ray (RLlib), Acme, Dopamine 或自定义 RL 框架；具备构建仿真环境（Simulator）的能力。
4.加分项：有因果推断（Causal Inference）经验者优先。
5.行业认知：对金融零售业务（理财、信贷、客群运营）有一定了解，或具备快速学习业务逻辑的能力。
6.沟通能力：需要较强的跨部门沟通与业务翻译能力。

以担保或任何理由索取财物，扣押证照，均涉嫌违法，请提高警惕