职位详情
大模型算法工程师
1.5-2.5万
博科国信(武汉)科技有限公司
武汉
1-3年
硕士
08-18
工作地址

微立方近零碳创新产业园2期2-3楼

职位描述

工作职责

(1) 负责对话与生成类模型的SFT(有监督微调)与RLHF(基于人类反馈的强化学习)全流程:数据构建→标注与质检→模型训练→离线/在线评测→上线迭代。
(2) 设计Prompt,并且利用爬虫、模型生成等手段采集优质训练样本,对模型进行SFT,提升模型效果。
(3) 设计与实现对齐训练链路:偏好数据采集与清洗、奖励模型(RM)训练、策略优化(PPO/DPO/GRPO 等),形成可复用的训练与评测流程。
(4) 面向真实业务进行生成效果优化:提示工程、COT、拒答边界、引用/事实核对、风格与长度控制,降低幻觉与违规率。
(5) 负责训练与部署工程化:多卡/多机并行(DeepSpeed)、混合精度(INT8/FP16/FP8)、vLLM推理加速与量化(LoRA/QLoRA)。
(6) 完成模型效果的评测:离线自动评测、人评流程与指南、线上 A/B;沉淀难例集与回归集。
(7) 构建数据闭环:从日志与用户反馈挖掘难样本与偏差案例,持续更新 SFT/偏好/对抗数据,迭代 RM 与策略。
(8) 与产品/后端/数据/安全合规协作,输出技术方案与上线手册,保障稳定性、可观测性与合规性。

任职资格

计算机/数学/统计等相关专业硕士及以上,1 年+ NLP/生成模型相关经验。
(2) 代码与数理基础扎实,熟练常见的机器学习算法,深度学习算法,理解 Transformer、优化器、并行与显存管理。
(3) 熟悉 SFT/RLHF 方法论与实现:数据对齐、RM 训练、PPO/DPO/GRPO 等策略优化,能定位训练不稳定与崩塌问题。
(4) 具备生成质量优化经验:提示策略、思维链/结构化输出、事实核对与幻觉治理、拒答与红线规则。
(5) 有训练与推理工程化实践:FSDP/ZeRO/DeepSpeed、LoRA/QLoRA、vLLM/TensorRT-LLM、监控与日志。
(6) 良好的沟通协作与问题拆解能力,结果导向与自驱学习能力强。

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请