「北京海淀区 ai大模型算法工程师招聘」_2026年国信蓝桥数字科技(天津)有限公司招聘-智联招聘

职位详情

ai大模型算法工程师

3-6万

国信蓝桥数字科技(天津)有限公司

北京

不限

硕士

01-22

工作地址

安谋科技有限公司

职位描述

1.负责千亿/百亿参数大模型的后训练（post-training）与强化学习对齐，包括 RLHF、DPO、PPO 等算法的设计、实现与持续优化；

2.搭建分布式 RL 训练框架与强化学习环境，构建领域专属奖励模型（Reward Model），解决稀疏奖励、训练稳定性等核心问题；

3.建设自动化评测体系，量化 RL 策略在真实业务中的泛化能力与安全性，形成数据闭环驱动模型快速迭代；

4.跟踪 ICML、NeurIPS、ICLR 等顶会强化学习最新进展，将前沿算法转化为专利、顶会论文与业务落地方案。

任职要求：

1.计算机、人工智能、自动化、数学等相关专业硕士及以上学历，博士优先；

2.对强化学习基础理论（MDP、策略梯度、Actor-Critic、Offline RL 等）有深入理解，熟悉 PPO、SAC、DQN、DDPG 等主流算法；

3.具备大模型+RL 实战经验：独立完成过 RLHF 或 Reward Model 训练，熟悉 DeepSpeed/Megatron 分布式训练框架；

4.编程功底扎实，精通 Python 与 PyTorch/TensorFlow；能独立实现算法原型并上线部署；

5.在 NeurIPS/ICML/ICLR/AAAI 等顶会或期刊以一作/共一发表过强化学习相关论文，或拥有核心专利；

6.具备优秀的团队协作与跨部门沟通能力，对技术落地有强烈 Ownership，能适应快速变化的业务需求。

以担保或任何理由索取财物，扣押证照，均涉嫌违法，请提高警惕

国信蓝桥数字科技(天津)有限公司

学校/学历教育

100-299人 |

为您推荐更多相似职位

8000-16000元

北京硕士

2-4万

北京硕士

2.5-5万

北京硕士

1.8-2.2万

北京本科

2.4-2.8万·14薪

北京本科

1.2-2万

北京硕士

周边城市

立即申请

工作地址

职位描述

职位福利

国信蓝桥数字科技(天津)有限公司