职位描述
参与 AI Agent(基于 GPT 等大模型) 的功能测试与验收;
针对 Prompt、上下文管理、任务执行链路,设计测试用例并验证输出一致性与可控性;
验证 Agent 在多轮对话、复杂任务场景下的行为稳定性与逻辑正确性。
2. Prompt 与模型行为测试
测试 Prompt 在不同输入条件下的响应质量、边界行为与退化风险;
识别模型幻觉(Hallucination)、不完整回答、逻辑跳跃等问题;
协助沉淀 Prompt 测试样例库与评估标准。
3. RAG / 知识检索测试
测试基于 RAG 的知识检索准确性、召回率与引用一致性;
验证 AI 是否 严格基于内部知识库内容回答,避免编造;
检查知识更新、缺失、冲突时的模型行为是否符合预期。
4. 工具调用与流程测试
测试 Agent 对内部工具/API 的调用逻辑、参数正确性与异常处理;
验证多步骤任务执行流程(如“理解 → 规划 → 执行 → 校验”)的完整性;
发现流程中可能导致越权、误用或失败的风险点。
5. 合规与风险测试(重点)
基于 AICOS / N-ARL 原则,测试 AI 是否存在:
越权回答
误导性输出
不合规建议
风险未提示情况
设计 “极端 / 对抗性输入”,验证 AI 的风险识别与自我保护能力;
协助输出 AI 风险测试报告与改进建议。
6. 测试流程与协作
与 AI 开发工程师、产品经理、业务团队协作,推动问题闭环;
参与制定 AI 测试规范、测试流程与质量指标;
支持 AI 系统上线前的测试评估与持续迭代。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕