职位详情
ai大模型算法工程师
3-6万
国信蓝桥数字科技(天津)有限公司
北京
不限
硕士
01-22
工作地址

安谋科技有限公司

职位描述

1.负责千亿/百亿参数大模型的后训练(post-training)与强化学习对齐,包括 RLHF、DPO、PPO 等算法的设计、实现与持续优化;

2.搭建分布式 RL 训练框架与强化学习环境,构建领域专属奖励模型(Reward Model),解决稀疏奖励、训练稳定性等核心问题;

3.建设自动化评测体系,量化 RL 策略在真实业务中的泛化能力与安全性,形成数据闭环驱动模型快速迭代;

4.跟踪 ICML、NeurIPS、ICLR 等顶会强化学习最新进展,将前沿算法转化为专利、顶会论文与业务落地方案。

任职要求:

1.计算机、人工智能、自动化、数学等相关专业硕士及以上学历,博士优先;

2.对强化学习基础理论(MDP、策略梯度、Actor-Critic、Offline RL 等)有深入理解,熟悉 PPO、SAC、DQN、DDPG 等主流算法;

3.具备大模型+RL 实战经验:独立完成过 RLHF 或 Reward Model 训练,熟悉 DeepSpeed/Megatron 分布式训练框架;

4.编程功底扎实,精通 Python 与 PyTorch/TensorFlow;能独立实现算法原型并上线部署;

5.在 NeurIPS/ICML/ICLR/AAAI 等顶会或期刊以一作/共一发表过强化学习相关论文,或拥有核心专利;

6.具备优秀的团队协作与跨部门沟通能力,对技术落地有强烈 Ownership,能适应快速变化的业务需求。

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请