职位详情
RLHF数据训练师
7000-9000元
深圳市法本信息技术股份有限公司
杭州
1-3年
本科
12-24
工作地址

阿里巴巴西溪C区(C1楼)西溪C区(C1楼)

职位描述
岗位要求:
● 本科及以上学历,语言学、心理学、计算机、认知科学、哲学、新闻传播、教育学等相关专业优先;
● 有1年以上内容审核、编辑校对、用户研究、UX评估、测试用例设计或AI数据奖励建模标注经验;
● 熟悉大语言模型基本概念(如token、prompt、temperature、RLHF流程等);
● 使用过主流大模型(如GPT、Claude、通义千问、文心一言等)并对其优缺点有观察。
● 出色的中文阅读理解能力,对语言细微差异敏感,具备较强的逻辑分析与批判性思维;
● 对模型输出的文本回答,有优秀的范式理解;
● 对AI伦理、模型安全、内容合规等议题有一定认知,能够在指导下理解并严格执行标注规范,注重细节,责任心强;
● 能熟练使用办公软件(如Excel、Google Sheets)及内部标注平台;
● 熟悉大语言模型评测,对大语言模型机理敏感;
● 良好的沟通能力与团队协作意识。

工作内容:
1. 高质量偏好数据标注
○ 对同一提示(prompt)下由大语言模型生成的2–4个回复进行成对或全局排序(ranking),依据标准判断哪个回复更符合人类偏好;
○ 在多维评估维度(如:事实准确性、安全性、指令遵循度等)下进行细粒度打分或分类;
○ 识别并标记模型输出中的潜在风险内容,包括但不限于:事实错误、偏见歧视、诱导性语言、安全风险内容等。
2. 标注质量保障与反馈闭环
○ 定期参与标注一致性校准会议,与团队对齐判断标准;
○ 主动记录模糊案例、边界情况或指南冲突点,提出改进建议;
○ 配合质检流程,接受随机抽查与回溯评估,确保个人标注准确率 ≥95%(以内部标准为准)。
3. 协作与知识沉淀
○ 与Prompt工程师协作,理解任务背景与模型能力边界,提升标注上下文感知能力;
○ 参与标注文档(SOP)的撰写、更新与本地化(中英双语场景);
○ 必要时撰写简要标注理由(justification),用于模型可解释性分析或人工审核复盘。
上班时间:早九晚六、周末双休
薪资:
6800/8200面试定级定薪

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请