职位详情
大模型强化学习算法专家
6-10万
万联易达物流科技有限公司
北京
5-10年
硕士
07-23
工作地址

荣联科技大厦6

职位描述
岗位职责
1. 研发和优化大模型强化学习核心算法(RLHF、RFT、ReFT、DPO、KTO、IPO、RRHF等),专注于专业研报撰写和思维链优化方向
2. 构建端到端强化学习训练管道,包括高效奖励模型设计、策略优化算法研发和智能数据收集系统开发
3. 深度探索思维链(Chain-of-Thought)强化学习范式,提升模型在逻辑推理、分析论证和专业内容生成上的能力
4. 研发专业研报领域的对齐技术,提高模型输出的专业性、准确性和可靠性
5. 设计并实现多轮推理优化算法,提升模型在复杂分析和长文档撰写中的连贯性和深度
6. 跟踪大模型强化学习前沿技术,撰写高质量技术分析报告,为团队提供深度技术指导
任职要求
1. 计算机科学、机器学习或人工智能相关专业硕士及以上学历
2. 具备丰富的RLHF对齐策略实践经验,能独立设计和优化人类偏好建模系统
3. 熟悉并实践过最新的强化学习算法,如Constitutional AI、思维链增强型RL训练和无强化学习的偏好优化方法
4. 对专业研报结构化生成和思维链(Chain-of-Thought)技术有深入研究
5. 参与过大规模开放领域大模型训练项目(如ChatGPT、Gemini、Claude类RL训练方法论实践)
6. 对强化学习理论体系有深入理解,并能熟练应用于大模型训练和优化
7. 扎实的数学基础(统计学、优化理论、信息论等),能独立解读顶会论文(NeurIPS/ICLR/ICML)并高效实现
加分项
1. 有经济、科技、工业等专业领域研究报告撰写或分析经验
2. 熟悉ReAct、Tree-of-Thought等思维链增强技术的算法实现
3. 在文档结构化生成、专业知识对齐或逻辑推理能力优化方面有研究成果
4. 对专业研报质量评估体系有研究,能构建有效的评估指标和奖励函数
5. 熟悉大型语言模型在专业内容生成中的常见挑战和解决方案
6. 发表过相关领域高质量研究论文
7. 开源项目贡献经验
8. 良好的跨团队协作能力和技术沟通能力

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请