岗位要求:
- 有算法/研发/数据分析背景优先,需要熟悉 Python 或自己搭建过 agent 流程;
- 有英文文献阅读能力(可以借助工具辅助)优先;
岗位职责:
- 评测集复现与改造:踪最新的大模型评测方法与前沿 Benchmark,探索新型评测维度和指标,根据公司需求对评测集进行定制化改造和优化,确保评测过程的可复现性与可靠性。
- 自动评估体系建设:自建大模型评测体系与评测集,以自动评估为主,覆盖通用能力及专项能力,设计合理的指标体系和任务集,确保评测全面性与针对性。
- 模型效果分析:定期对不同版本的模型进行评估和对比,输出详尽的评测报告,识别模型的优势与不足,提出改进建议,支持模型迭代方向的明确与决策。
- 跨团队协作:与算法、产品、业务团队紧密配合,理解实际应用需求,提供模型效果分析与评测方案,支持模型迭代与业务落地。