「杭州余杭区 RLHF数据训练师招聘」_2026年法本信息招聘-智联招聘

职位详情

RLHF数据训练师

7000-9000元

深圳市法本信息技术股份有限公司

杭州

1-3年

本科

12-24

工作地址

阿里巴巴西溪C区(C1楼)西溪C区(C1楼)

职位描述

岗位要求：
● 本科及以上学历，语言学、心理学、计算机、认知科学、哲学、新闻传播、教育学等相关专业优先；
● 有1年以上内容审核、编辑校对、用户研究、UX评估、测试用例设计或AI数据奖励建模标注经验；
● 熟悉大语言模型基本概念（如token、prompt、temperature、RLHF流程等）；
● 使用过主流大模型（如GPT、Claude、通义千问、文心一言等）并对其优缺点有观察。
● 出色的中文阅读理解能力，对语言细微差异敏感，具备较强的逻辑分析与批判性思维；
● 对模型输出的文本回答，有优秀的范式理解；
● 对AI伦理、模型安全、内容合规等议题有一定认知，能够在指导下理解并严格执行标注规范，注重细节，责任心强；
● 能熟练使用办公软件（如Excel、Google Sheets）及内部标注平台；
● 熟悉大语言模型评测，对大语言模型机理敏感；
● 良好的沟通能力与团队协作意识。

工作内容：
1. 高质量偏好数据标注
○ 对同一提示（prompt）下由大语言模型生成的2–4个回复进行成对或全局排序（ranking），依据标准判断哪个回复更符合人类偏好；
○ 在多维评估维度（如：事实准确性、安全性、指令遵循度等）下进行细粒度打分或分类；
○ 识别并标记模型输出中的潜在风险内容，包括但不限于：事实错误、偏见歧视、诱导性语言、安全风险内容等。
2. 标注质量保障与反馈闭环
○ 定期参与标注一致性校准会议，与团队对齐判断标准；
○ 主动记录模糊案例、边界情况或指南冲突点，提出改进建议；
○ 配合质检流程，接受随机抽查与回溯评估，确保个人标注准确率 ≥95%（以内部标准为准）。
3. 协作与知识沉淀
○ 与Prompt工程师协作，理解任务背景与模型能力边界，提升标注上下文感知能力；
○ 参与标注文档（SOP）的撰写、更新与本地化（中英双语场景）；
○ 必要时撰写简要标注理由（justification），用于模型可解释性分析或人工审核复盘。
上班时间：早九晚六、周末双休
薪资：
6800/8200面试定级定薪

以担保或任何理由索取财物，扣押证照，均涉嫌违法，请提高警惕