职位详情
AI推理算法工程师
1.5-3万
唐人通信技术服务股份有限公司
北京
3-5年
本科
01-26
工作地址

唐人集团(北京办事处)

职位描述

一.岗位职责

1. 参与智能家居相关的大模型Agent设计与应用,构建包含意图识别、复杂任务拆解、多步推理、ReAct工具调用、长短期记忆及智能推荐在内的完整链路。

2. 运用SFT、RL等后训练方法训练强化垂域模型,提升大模型的多步推理、上下文遵循、ReAct工具调用、领域问答等能力。

3. 基于数据反馈构建高质量训练数据,设计奖励函数与优化机制,提升模型在垂直领域的泛化能力,利用PPO/GRPO等算法建设基于强化学习的迭代路径。

4. 跟踪LLM与Agent领域的国际前沿技术(如多智能体协作、LongContext、CoT),推动前沿技术在业务中的应用落地。

5. 深度理解智能家居业务,沉淀通用、模块化的算法能力,与产品、工程紧密沟通协作,推动业务迭代。

二.任职资格

1. 本科及以上学历,计算机、人工智能等相关专业,具备扎实的数据结构与算法基础,3年以上相关工作经验。

2. 具备扎实的Python编程能力,熟练掌握PyTorch等深度学习框架,有优秀的代码规范与工程素养。

3. 熟悉LLM训练全流程(Pre-train/CPT/SFT/RLHF),熟练使用主流训练/推理框架(如Megatron-LM、DeepSpeed、vLLM、 Sglang等)。

4. 深入理解强化学习原理,熟悉PPO、DPO、GRPO等算法基本原理,熟悉基于RLVR的强化学习训练者优先。

5. 具备敏锐的技术视野,能够将前沿算法与复杂的业务相结合,产出实际价值。

6. 具备良好的沟通协作能力,工作积极主动,具备较强的学习能力,可快速验证新想法,推动技术进步。

三.加分项

1. 主导过基于ReAct/FunctionCall的Agent生产级应用开发。

2. 在大规模模型训练中有数据合成或强化学习训练的实战经验。

在开源社区发布过有一定影响力的项目。

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请