职位详情
数据治理专家(J10184)
3-5万·14薪
北京神舟航天软件技术股份有限公司
北京
5-10年
硕士
12-16
工作地址

永丰

职位描述
岗位职责:
(一)数据治理体系搭建与战略规划
1.主导制定事业部 AI 数据治理中长期战略与技术路线,结合业务场景(如政府审计、企业监管、智能决策等)明确数据治理目标、范围与优先级,对齐公司 AI 产品发展规划。
2.建立并迭代 事业部AI 数据治理标准体系,包括数据分类分级标准、元数据管理规范、数据质量评价体系、标注规范(如 NLP 文本标注、CV 图像标注、语音转写标注)、数据安全与合规准则,覆盖结构化、非结构化(文本、图像、语音)、半结构化及 AI 生成数据。
3.设计 AI 数据治理架构,参与数据治理工具链(如数据清洗工具、标注工具、质量监测工具、数据血缘分析工具)的规划与落地,推动治理流程自动化、智能化(如引入大模型辅助数据分类、清洗、标注)。
(二)AI 全生命周期数据治理实施
1.数据采集与预处理治理:主导 AI 训练 / 推理数据的采集策略设计,保障数据来源的合法性、多样性与平衡性;牵头数据清洗、去重、去噪、格式标准化工作,解决数据缺失、冗余、冲突等问题,优化数据可用性。
2.标注质量与流程治理:建立标注质量控制体系,制定标注流程规范、质量评估指标(如准确率、召回率、一致性),搭建标注审核机制(人工审核 + 算法校验),确保标注数据满足模型训练要求。
3.数据版本与生命周期管理:设计 AI 训练数据版本管理机制,记录数据迭代历史、版本差异及关联模型,支持版本回溯与复用;制定数据生命周期管理规则,明确数据存储、归档、销毁标准,优化存储资源配置。
4.数据漂移与质量监测:建立 AI 数据质量常态化监测体系,设计数据质量指标(完整性、准确性、一致性、时效性、唯一性、相关性)的监测方案,实时捕捉数据漂移(概念漂移、特征漂移)、分布异常等问题,推动数据质量持续优化。
5.数据安全治理:制定数据访问控制策略、加密传输与存储方案,落实数据分类分级保护要求,防范数据泄露、篡改、滥用风险,保障数据全流程安全。
(三)数据资产化与价值挖掘
1.牵头 AI 数据资产化建设,搭建数据目录、元数据管理体系,梳理数据血缘关系,建立数据资产标签体系,实现数据资产的可视化管理与高效检索。
2.挖掘数据资产价值,推动治理后的数据在 AI 模型训练、业务场景创新(如智能审计、智能监管、预测分析)中的复用,提升数据使用效率,降低 AI 开发成本。
3.建立数据治理成效评估体系,量化数据治理对模型性能(如准确率、召回率提升)、业务效率(如模型迭代周期缩短)、合规风险降低的贡献度。
(四)团队协作与技术赋能
1.对接算法团队、产品团队,明确 AI 数据需求(如训练数据量、场景适配性、数据格式),推动数据治理成果落地应用。
2.开展 AI 数据治理知识赋能,制定培训体系,向内部团队(算法、产品、运营)及合作伙伴传递数据治理标准、工具使用方法、合规要求,提升全员数据治理意识。
3.跟踪 AI 数据治理领域前沿技术趋势(如大模型辅助数据治理、自动化数据标注、智能数据质量诊断),引入创新技术与工具,优化治理流程与效率。
4.指导数据治理团队(如数据治理工程师、标注管理专员)开展工作,制定工作目标与考核标准,提升团队专业能力;参与核心技术方案评审,解决数据治理复杂技术难题。
任职要求:
(一)专业知识
1.数据治理核心知识:精通数据治理全流程框架,包括数据分类分级、元数据管理、数据质量体系(完整性、准确性、一致性等指标)、数据生命周期管理、数据血缘分析等;掌握结构化、非结构化(文本、图像、语音)、半结构化及 AI 生成数据的治理特性与方法。
2.AI 领域专业知识:熟悉 AI 全生命周期(数据采集、标注、训练、推理、退役)的数据流与治理需求;掌握机器学习 / 深度学习模型对训练数据的要求(如数据多样性、平衡性、标注精度);了解数据漂移(概念漂移、特征漂移)的检测与应对方法;精通 NLP、CV、语音等领域的标注规范与质量评估标准。
3.合规与安全知识:了解《数据安全法》《个人信息保护法》《生成式人工智能服务管理暂行办法》、GDPR 等国内外数据相关法律法规及行业规范;了解数据合规评估方法(如隐私保护影响评估 PIA)、数据脱敏(匿名化、去标识化)、差分隐私、联邦学习等合规技术;了解数据分类分级保护、访问控制、加密传输与存储等安全治理方案。
4.技术工具知识:熟悉主流数据治理工具链,包括数据清洗工具(如 DataWrangler、Trifacta)、标注平台(如 LabelStudio、百度飞桨标注工具)、数据质量监测系统(如 Great Expectations)、元数据管理工具(如 Apache Atlas)、数据血缘分析工具;了解大数据处理技术(Hadoop、Spark)、数据库技术(关系型、非关系型数据库);具备大模型辅助数据治理(如自动分类、智能清洗、标注审核)的相关知识者优先。
(二)业务技能
1.体系搭建能力:了解国家最新数据宏观政策,能够独立设计 AI 数据治理战略规划、标准体系(含数据分类分级、质量、标注、合规等规范)及技术架构,具备从 0 到 1 搭建数据治理体系的实操能力。
2.全流程治理执行能力:熟练开展 AI 数据采集策略设计、数据清洗与预处理、标注质量管控、数据版本管理、数据漂移监测等全生命周期治理工作;能够针对不同 AI 场景(如智能审计、智能监管、生成式 AI 产品)制定个性化数据治理方案。
3.工具选型与落地能力:具备数据治理工具链的选型、部署与优化能力,能够结合业务需求与技术架构,推动治理工具的集成与自动化落地;可主导或参与数据治理相关系统(如质量监测平台、标注管理系统)的需求设计与迭代优化。
4.数据分析与问题解决能力:能够设计数据质量评估指标体系,通过数据分析定位数据治理痛点(如数据缺失、标注不一致、数据漂移),并提出可落地的优化方案;具备复杂数据治理问题(如多源数据冲突、高维数据质量诊断)
的攻坚能力。
(三)工作经验
1.总体经验:5 年以上数据治理相关工作经验,其中至少 3 年 AI 领域(如机器学习、深度学习、生成式 AI)数据治理专项经验;具备政务数据、企业监管数据、金融数据等敏感数据治理经验者优先。
2.核心业务经验:具备 AI 数据治理体系搭建经验,主导过数据治理标准制定、流程优化或工具链落地项目。熟练掌握 AI 全生命周期数据治理流程,有大规模 AI 训练数据(千万级及以上)治理实操经验,能够独立解决数据质量、标注精度、数据合规等核心问题。
4.团队与管理经验:具备数据治理团队(如数据治理工程师、标注管理专员)的指导与管理经验,能够制定团队工作目标、考核标准,提升团队专业能力;具备跨部门项目协同推动经验,能够协调资源解决项目推进中的关键瓶颈。
(四)项目经验
1.至少主导 1 个以上大型 AI 产品(如智能知识问答、智能数据分析平台、生成式 AI 服务)的数据治理全流程项目,负责治理体系搭建、标准制定、工具落地及质量管控。
2.主导或核心参与过 AI 数据治理体系搭建项目,成功制定数据分类分级标准、数据质量评价体系、标注规范等核心文件,并推广落地,覆盖至少 2 个以上 AI 业务场景。
3.具备数据合规治理相关项目经验,参与过隐私保护影响评估(PIA)、数据脱敏改造、数据跨境传输合规等项目,确保项目通过相关合规审查,无重大合规风险事件。
4.主导或参与过数据治理工具链选型与落地项目,成功部署并优化数据清洗、标注管理、质量监测等工具,实现治理流程自动化或智能化。
5.具备政务数据、企业监管数据相关 AI 项目的数据治理经验者(如参与过省级及以上审计数字化平台、企业监管 AI 系统的数据治理工作),优先考虑。

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请