职位详情
强化学习工程师 (RL/决策智能方向)(周期6个月 统招本科)
2.5-3万
成都迈思信息技术有限公司
上海
5-10年
本科
01-26
工作地址

交通银行软件开发中心附近

职位描述
1.专业背景:本科及以上学历,机器学习、运筹学或控制论相关专业;8年以上工作经验,具备强化学习(RL)在推荐、营销领域的实际落地经验。
2.理论基础:深刻理解 MDP、Bellman Equation,熟悉 DQN, PPO, DDPG, SAC 等主流 RL 算法及其变体;熟悉 Actor-Critic 架构细节。
3.框架技能:熟练使用 Ray (RLlib), Acme, Dopamine 或自定义 RL 框架;具备构建仿真环境(Simulator)的能力。
4.加分项:有因果推断(Causal Inference)经验者优先。
5.行业认知:对金融零售业务(理财、信贷、客群运营)有一定了解,或具备快速学习业务逻辑的能力。
6.沟通能力:需要较强的跨部门沟通与业务翻译能力。

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请