「北京朝阳区大模型强化学习算法专家招聘」_2025年万联易达物流科技有限公司招聘-智联招聘

职位详情

大模型强化学习算法专家

6-10万

万联易达物流科技有限公司

北京

5-10年

硕士

07-23

工作地址

荣联科技大厦6

职位描述

岗位职责
1. 研发和优化大模型强化学习核心算法（RLHF、RFT、ReFT、DPO、KTO、IPO、RRHF等），专注于专业研报撰写和思维链优化方向
2. 构建端到端强化学习训练管道，包括高效奖励模型设计、策略优化算法研发和智能数据收集系统开发
3. 深度探索思维链(Chain-of-Thought)强化学习范式，提升模型在逻辑推理、分析论证和专业内容生成上的能力
4. 研发专业研报领域的对齐技术，提高模型输出的专业性、准确性和可靠性
5. 设计并实现多轮推理优化算法，提升模型在复杂分析和长文档撰写中的连贯性和深度
6. 跟踪大模型强化学习前沿技术，撰写高质量技术分析报告，为团队提供深度技术指导
任职要求
1. 计算机科学、机器学习或人工智能相关专业硕士及以上学历
2. 具备丰富的RLHF对齐策略实践经验，能独立设计和优化人类偏好建模系统
3. 熟悉并实践过最新的强化学习算法，如Constitutional AI、思维链增强型RL训练和无强化学习的偏好优化方法
4. 对专业研报结构化生成和思维链(Chain-of-Thought)技术有深入研究
5. 参与过大规模开放领域大模型训练项目（如ChatGPT、Gemini、Claude类RL训练方法论实践）
6. 对强化学习理论体系有深入理解，并能熟练应用于大模型训练和优化
7. 扎实的数学基础（统计学、优化理论、信息论等），能独立解读顶会论文（NeurIPS/ICLR/ICML）并高效实现
加分项
1. 有经济、科技、工业等专业领域研究报告撰写或分析经验
2. 熟悉ReAct、Tree-of-Thought等思维链增强技术的算法实现
3. 在文档结构化生成、专业知识对齐或逻辑推理能力优化方面有研究成果
4. 对专业研报质量评估体系有研究，能构建有效的评估指标和奖励函数
5. 熟悉大型语言模型在专业内容生成中的常见挑战和解决方案
6. 发表过相关领域高质量研究论文
7. 开源项目贡献经验
8. 良好的跨团队协作能力和技术沟通能力

以担保或任何理由索取财物，扣押证照，均涉嫌违法，请提高警惕