服务要求:
熟悉机器学习/大模型常用评估指标、数据集和测试工具;
熟悉鲁棒性测试、偏见性检测、安全测试流程;
熟悉评测框架(如OpenCompass、自动化测试平台与可视化分析工具;
熟悉不同类型模型、智能体和任务的测试样本构造方法;
具备复杂系统的评估指标设计与评估流程搭建能力;
具备5年以上AI模型测试与质量保障经验,主持过大规模模型评估体系或跨场景评测项目;
在模型安全性、可解释性评估等领域有丰富实践,持有软件测试或质量管理相关认证者优先。
主要服务内容:
设计多维度的模型评估体系,涵盖通用能力与业务适应性;
构建测试数据集、Prompt组和交互脚本,构建模型评估自动化流水线;
实现模型版本间对比评估工具,分析评估结果,识别模型偏差、幻觉等缺陷;
分析模型输出与用户反馈,输出模型评估报告,推动模型优化。