职位描述
岗位职责
1、基于大语言模型构建的通用垂类应用进行效果和质量评估。与产研团队的紧密合作,制定评估标准和体系,准确分析评估效果,为应用优化提供指导,以提升应用的性能、用户体验和市场竞争力
2、应用效果与质量评估,评估基于大语言模型构建的通用垂类应用的效果和质量,包括但不限于语言理解准确性、生成内容的合理性/真实性,逻辑连贯性等方面:参与收集和分析用户反馈数据和设计测试用例,涵盖不同场景、用户需求和输入条件,以确保应用在各种情况下的稳定性和可靠性
3、评估标准与体系建设,理解业务需求和产品目标,与产研团队密切沟通和协作,负责制定详细、明确的评估标准和指标体系;理解完整评估流程(评测目的、用户数据分析、评测集建设、评测结果分析),确保评估数据的完整性和可靠性
4、评估效果分析与报告,撰写评估报告,清晰阐述评估方法、过程、结果和结论,为产研团队提供决策依据和改进方向:
5、团队协作与沟通
岗位基本需求
1、具有较好的理解能力和文本编辑能力
2、具备大模型评测或标注相关经验
3、具备责任心和抗压能力,能对评估数据和结果负责
4、擅长沟通和团队合作,能够独自推动工作
5、视觉传达/艺术|设计类专业或对视频图片有较高审美者优先
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕