职位描述
岗位说明:
负责设计并优化专利数据加工流程,支撑专利检索与AI工具开发的核心业务需求。整合专利数据、商标数据、企业信息资产,构建高效、安全、可扩展的数据处理体系,并推动AI技术与数据架构的深度融合。
岗位职责:
1、数据架构设计与优化
基于现有数据处理体系,构建外部专利数据对接标准,实现专利数据处理的自动化流程构建。结合产品功能构建适应能够快速支撑产品需求的专利主题数据域。
规划企业级数据架构,包括数据仓库、数据湖及实时数据处理平台的设计与实施,满足专利数据存储、检索及AI模型训练需求。
2、数据治理与标准化
制定数据治理框架,包括元数据管理、数据质量监控及主数据标准,确保专利数据的准确性、一致性和可追溯性。
主导数据资产盘点与生命周期管理,支持跨部门数据协作与共享;
根据业务需求进行数仓分层设计、数据模型设计、ETL作业设计;
规划数据迁移策略,确保新旧系统平滑迁移,保障线上业务不间断;
4、AI技术集成与创新
构建支持机器学习/深度学习的数据基础设施,设计高效的特征存储、模型训练与推理流程。
探索图数据库、NLP处理等技术在专利检索与分析中的应用场景。
5、跨团队协作与项目管理
协同数据科学家、AI工程师及业务团队,将技术方案转化为可落地的产品功能。
能够通过BI工具输出分析结果,对业务进行直接支持。
主导技术文档编写、Code Review及核心代码开发,确保架构设计与代码实现的一致性。
任职要求:
1、教育背景,本科及以上学历,计算机科学、信息管理、统计学等相关专业。
2、5年以上专利数据清洗、加工、校验经验,包括数据源对接、数据标准指定、业务指标与数据加工口径映射、数据准确性校验、多专利数据数据源归并;
3、精通主流大数据技术生态,对Flink、Spark作业的开发、计算性能优化、稳定性提升有实际经验,对HBase、startrocks、OpenSearch、kafka、nifi/seatunnl/streamsets、DolphinScheduler的使用优化及性能调优有实际经验;
4、熟悉业务驱动建模,有从业务侧应用反向进行数据盘点的能力;
5、主导构建或优化过使用MPP或Hadoop生态支持百万并发的数据查询系统;
6、有数据推动AI训练的项目经历,并在项目中承担主导者的角色;
7、熟悉XML文档数据解析、对象存储的使用,熟练掌握JAVA EE、Scala、PGSQL、PLSQL开发,熟悉不同数据库之间数据类型的映射关系;
8、熟悉MPP结构下的OALP、OLTP、HATP原理及实现方式,理解MPP结构下的数据查询和高并发响应。
9、熟练使用建模工具和BI软件。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕