「北京丰台区高级大数据开发工程师招聘」_2026年北京八月瓜科技有限公司招聘-智联招聘

职位详情

高级大数据开发工程师

2-3.5万

北京八月瓜科技有限公司

北京

5-10年

本科

12-22

工作地址

汉威国际广场三区-4号楼9m层

职位描述

岗位说明：
负责设计并优化专利数据加工流程，支撑专利检索与AI工具开发的核心业务需求。整合专利数据、商标数据、企业信息资产，构建高效、安全、可扩展的数据处理体系，并推动AI技术与数据架构的深度融合。
岗位职责：
1、数据架构设计与优化
基于现有数据处理体系，构建外部专利数据对接标准，实现专利数据处理的自动化流程构建。结合产品功能构建适应能够快速支撑产品需求的专利主题数据域。
规划企业级数据架构，包括数据仓库、数据湖及实时数据处理平台的设计与实施，满足专利数据存储、检索及AI模型训练需求。
2、数据治理与标准化
制定数据治理框架，包括元数据管理、数据质量监控及主数据标准，确保专利数据的准确性、一致性和可追溯性。
主导数据资产盘点与生命周期管理，支持跨部门数据协作与共享；
根据业务需求进行数仓分层设计、数据模型设计、ETL作业设计；
规划数据迁移策略，确保新旧系统平滑迁移，保障线上业务不间断；
4、AI技术集成与创新
构建支持机器学习/深度学习的数据基础设施，设计高效的特征存储、模型训练与推理流程。
探索图数据库、NLP处理等技术在专利检索与分析中的应用场景。
5、跨团队协作与项目管理
协同数据科学家、AI工程师及业务团队，将技术方案转化为可落地的产品功能。
能够通过BI工具输出分析结果，对业务进行直接支持。
主导技术文档编写、Code Review及核心代码开发，确保架构设计与代码实现的一致性。
任职要求：
1、教育背景，本科及以上学历，计算机科学、信息管理、统计学等相关专业。
2、5年以上专利数据清洗、加工、校验经验，包括数据源对接、数据标准指定、业务指标与数据加工口径映射、数据准确性校验、多专利数据数据源归并；
3、精通主流大数据技术生态，对Flink、Spark作业的开发、计算性能优化、稳定性提升有实际经验，对HBase、startrocks、OpenSearch、kafka、nifi/seatunnl/streamsets、DolphinScheduler的使用优化及性能调优有实际经验；
4、熟悉业务驱动建模，有从业务侧应用反向进行数据盘点的能力；
5、主导构建或优化过使用MPP或Hadoop生态支持百万并发的数据查询系统；
6、有数据推动AI训练的项目经历，并在项目中承担主导者的角色；
7、熟悉XML文档数据解析、对象存储的使用，熟练掌握JAVA EE、Scala、PGSQL、PLSQL开发，熟悉不同数据库之间数据类型的映射关系；
8、熟悉MPP结构下的OALP、OLTP、HATP原理及实现方式，理解MPP结构下的数据查询和高并发响应。
9、熟练使用建模工具和BI软件。

以担保或任何理由索取财物，扣押证照，均涉嫌违法，请提高警惕