职位详情
XML数据工程师
面议
中国科技出版传媒股份有限公司
北京
3-5年
硕士
11-11
工作地址

北京市东城区东黄城根北街16号科学出版社

职位描述

【岗位职责】

1.期刊XML数据标准制定与实施(核心重点)

a. 负责分析不同标准的期刊XML数据(如JATS、BITS、CrossRef等),制定符合我司业务需求的内部统一数据标准和规范。

b. 设计并开发强大的XML解析、验证、清洗和转换(ETL/ELT)流程,确保数据能准确映射到目标模型。

c. 建立数据质量监控规则和校验体系,对入库的期刊XML数据进行自动化质量检查和报告,确保数据的完整性、准确性和一致性。

d. 解决XML数据处理中遇到的复杂技术问题,如处理大型XML文件、解析复杂嵌套结构、字符编码问题等。

2.数据管道与平台开发(通用数据工程师职责)

a. 设计、构建和维护稳定、可扩展的数据管道,负责期刊数据从采集、处理到存储的全链路。

b. 管理和优化数据仓库/数据湖中相关数据模型,确保其能满足下游业务(如检索、推荐、分析)的需求。

c. 与数据科学家和分析师协作,为其提供高质量、易用的数据集合。

3. 标准维护与协作

a. 持续跟踪学术出版行业的数据标准演进,并据此优化内部标准和处理流程。

b. 与内容获取、产品经理和研发团队紧密协作,理解业务需求,并将其转化为技术方案。

c. 编写清晰的技术文档,包括数据标准说明书、数据处理流程说明和系统设计文档。

【任职要求】

1. 工作经验

a. 学历要求:硕士以上学历(211,985,双一流院校优先),计算机及相关专业优先

b. 3年以上数据工程师或相关领域工作经验。

c. 必须具备扎实的XML/JSON等结构化数据处理经验,熟悉XPath, XSLT, XML Schema (XSD) 等相关技术。

d. 拥有构建和维护ETL/ELT数据管道的实战经验。

2.技术技能:

a. 编程语言: 精通 Python 或 Java/Scala,并具备使用其处理XML/JSON数据的能力(如使用lxml, ElementTree, BeautifulSoup等库)。

b. 数据存储: 熟悉至少一种关系型数据库(如PostgreSQL, MySQL)和一种NoSQL数据库(如MongoDB)。

c. 大数据技术: 熟悉至少一种大数据处理框架,如 Spark(优先考虑)、Flink,或熟练使用SQL进行复杂数据处理。

3.软技能:

a. 对数据质量有极高的要求,做事严谨、细致,有强烈的责任心。

b. 具备优秀的逻辑分析和问题解决能力,能独立解决复杂的数据问题。

c. 具备良好的沟通能力和文档撰写能力。

4.优先考虑条件(加分项)

a. 有学术出版、数字图书馆、知识服务等相关行业背景,熟悉 JATS 等期刊标记标准。

b. 有使用或解析 Elsevier, Springer Nature, Wiley 等大型出版社XML数据的经验。

c. 有数据治理、数据质量管理或元数据管理相关项目经验。

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请