「西安雁塔区 Ai评测模型招聘」_2026年文思海辉金融招聘-智联招聘

职位详情

Ai评测模型

3000-4000元

中电金信软件有限公司

西安

1年以下

大专

01-15

工作地址

阿里中心·西安1

职位描述

一、岗位职责

1. AI 模型评测数据标注
对比多个大模型（如 Qwen、DeepSeek、GPT-4o 等）在高德真实用户 Query 上的输出结果；
根据预定义的意图分类体系、任务完成度、事实准确性、用户体验等维度，进行人工打分或排序；
标注模型输出中的错误类型（如幻觉、意图错判、信息缺失、格式错误等）；
参与 MAD-style 高分歧样本挖掘，帮助识别模型能力边界。
2. 大模型训练样本标注（SFT / RAG）
对用户原始 Query 进行结构化改写与增强（如补全模糊需求、标准化表达）；
基于商品库、POI 信息、交通规则等知识，生成高质量、可执行的结构化输出（如 JSON 格式的票品选择、路线规划）；
对大模型生成的候选答案进行Best-of-N 精筛，选出最符合用户意图和业务规则的版本；
参与多轮对话状态标注，识别用户当前任务阶段（如确认、追问、切换意图等）。
项目亮点我们正在建设新一代 AI Native 出行与本地生活智能体，希望通过高质量的训练数据和评测数据，让模型真正“听得懂用户、帮得上忙”。
你将参与到地图 AI 能力的核心建设中，为大模型的训练与评估制作高质量样本，直接影响 AI 在导航、打车、门票交易、本地生活推荐等关键场景下的表现。站在真实用户视角，判断什么是一个“好答案”“好推荐”“好决策”，帮助我们持续提升模型的智能和用户体验。
职位要求必备技能：
细致严谨，能严格遵守标注规范、输出格式
良好的中文理解与表达能力，能处理口语、省略、指代、多轮对话
对地图/出行/本地生活场景有基本使用经验（导航、打车、找店、购票等）
能识别常见错误类型：意图误判、上下文断裂、事实不一致、编造、参数缺失等
熟练使用在线标注平台/Excel/表格工具

加分点有NLP/LLM评测或对话标注经验（MT-Bench、偏好比较、rubric打分等）
能理解基础的地理/交通常识（本地熟悉/异地、路线与时间距离常识）
有QA/测试经验，能做一致性复核与错因归类

以担保或任何理由索取财物，扣押证照，均涉嫌违法，请提高警惕