职位详情
大模型数据筛选专员/工程师 已下线
1-1.1万
纬创软件
杭州
不限
本科
06-16
工作地址

菜鸟网络智慧产业园一期

职位描述
岗位职责:
负责多模态大模型训练数据集的筛选、审核与整理,确保数据的高质量与多样性;
根据项目需求制定数据筛选标准,对原始数据进行去重、去噪、异常检测及内容敏感性筛查;
对文本、语音、图片等多模态数据进行有效标注、过滤、清洗及采集,构建高质量语料库;
协助研发团队,不断迭代和优化数据筛选流程,提升数据处理的自动化和效率;
维护数据处理相关文档,输出数据质量评估报告,保证数据合规性、安全性和隐私保护;
跟进大模型前沿进展和开源数据集动态,优化现有数据采集和处理方法。
任职要求:
本科及以上学历,计算机、信息管理、数据科学、语言学等相关专业优先;
熟悉大模型训练数据的基本类型与标准,了解基本的数据标注、去重、清洗流程;
熟练使用Python等脚本语言,掌握常用数据处理库(如pandas、numpy等),了解数据库操作优先;
具备良好的数据敏感性,能够准确判断和把控文本、图片等数据内容的合规性与噪声风险;
工作细致严谨,有较强的数据处理和归纳总结能力,有数据标注、搜索、审核或内容运营经验者优先;
有团队协作精神,沟通能力强,具备良好的责任心和自我学习能力。
加分项:
有大规模数据处理、数据挖掘、数据清洗实践经验;
有AI/NLP领域数据处理/生成相关工作经验;
熟悉常见的AI大模型(如GPT、Llama等)研发流程及开源语料采集;
有英文能力可协助多语种数据处理者优先。

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

查看更多相似职位