职位描述
全链路模型评估
设计并实施多维度LLM文本评估方案(排序/打分/AB测试)
构建行业垂域Benchmark数据集,辅助自动化评估工具链性能
主导模型效果归因分析,定位缺陷案例(BadCase)及风险模式
日常参与NLP项目下多版本模型迭代评测
质量体系构建
建立文本生成质量评指标体系(安全性/事实性/有用性等)
制定细粒盘评测规范与质量管控流程
持续优化评估方法论,提升评测效度与信度
技术驱动优化
协同算法图队完成模型缺陷根因分析,输出可量化的优化建议并推动工程落地
探素PromptEngineering等调优技术对模型表现的提升路径
二、必备条件或资质:
学历与专业背景
本科一批优先(大模型领域经验突出者可放宽至普通本科)
专业倾向:
文科类:英语语言文学、新闻传播学、汉语语言学等方向优先
理工类:计算机科学、电子信息工程等方向优先
工作经验与核心能力
具备1年以上LLM文本数据评测经验,包括:
设计并执行多维度模型评测方案(排序/打分)
构建科学评估指标体系及数据分析框架
定位模型缺陷案例(BadCase),推动效果优化闭环
掌握Benchmark数据集构建方法论
知识储备丰富,涉猎较广泛,学习能力强,使用过大模型产品(千问/豆包/DeepSeek/kimi)者优先
具有文本质量敏感度:
精准识别生成内容的无害性、事实准确性及信息价值
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕