职位详情
Ai评测模型
3000-4000元
中电金信软件有限公司
西安
1年以下
大专
01-15
工作地址

阿里中心·西安1

职位描述
一、岗位职责
1. AI 模型评测数据标注
对比多个大模型(如 Qwen、DeepSeek、GPT-4o 等)在高德真实用户 Query 上的输出结果;
根据预定义的意图分类体系、任务完成度、事实准确性、用户体验等维度,进行人工打分或排序;
标注模型输出中的错误类型(如幻觉、意图错判、信息缺失、格式错误等);
参与 MAD-style 高分歧样本挖掘,帮助识别模型能力边界。
2. 大模型训练样本标注(SFT / RAG)
对用户原始 Query 进行结构化改写与增强(如补全模糊需求、标准化表达);
基于商品库、POI 信息、交通规则等知识,生成高质量、可执行的结构化输出(如 JSON 格式的票品选择、路线规划);
对大模型生成的候选答案进行Best-of-N 精筛,选出最符合用户意图和业务规则的版本;
参与多轮对话状态标注,识别用户当前任务阶段(如确认、追问、切换意图等)。
项目亮点 我们正在建设新一代 AI Native 出行与本地生活智能体,希望通过高质量的训练数据和评测数据,让模型真正“听得懂用户、帮得上忙”。
你将参与到地图 AI 能力的核心建设中,为大模型的训练与评估制作高质量样本,直接影响 AI 在导航、打车、门票交易、本地生活推荐等关键场景下的表现。站在真实用户视角,判断什么是一个“好答案”“好推荐”“好决策”,帮助我们持续提升模型的智能和用户体验。
职位要求 必备技能:
细致严谨,能严格遵守标注规范、输出格式
良好的中文理解与表达能力,能处理口语、省略、指代、多轮对话
对地图/出行/本地生活场景有基本使用经验(导航、打车、找店、购票等)
能识别常见错误类型:意图误判、上下文断裂、事实不一致、编造、参数缺失等
熟练使用在线标注平台/Excel/表格工具

加分点 有NLP/LLM评测或对话标注经验(MT-Bench、偏好比较、rubric打分等)
能理解基础的地理/交通常识(本地熟悉/异地、路线与时间距离常识)
有QA/测试经验,能做一致性复核与错因归类

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请