岗位职责:
1. 负责AI产品及大模型(如NLP模型、对话模型、多模态模型等)的评测体系设计与实施,输出结构化评测报告;
2. 构建和维护模型评测流程,包括自动化测试脚本、评测数据集、指标体系等,保障评测工作的系统性与可复用性;
3. 结合模型训练策略(如SFT、RLHF等)设计定制化评测方案,参与模型调优方向建议与效果验证;
4. 了解主流模型评测基准(Benchmark),如MMLU、TruthfulQA、MT-Bench、Arena、BIG-Bench等,能够参与内部对齐与复现;
5. 与产品、算法、数据团队协作,推动评测结果落地反馈至模型迭代闭环中;
任职要求:
1. 计算机、人工智能等相关专业本科及以上学历;
2. 熟练掌握Python,具备良好的代码能力,能搭建评测工具链、调度流程及数据处理脚本;
3. 了解主流大语言模型训练流程,了解监督微调(SFT)、指令微调、强化学习(如RLHF)等原理与流程;
4. 熟悉主流大模型评测基准及其使用方法,了解至少一项benchmark的实际使用或复现经验;
5. 拥有良好的沟通、跨团队协作和结构化表达能力,能够独立完成评测设计与成果交付;
6. 具备AI评测或大模型相关经验优先,熟悉评测自动化平台(如EvalPlus、HELM、OpenCompass、DeepEval等)优先;