1.5-2.5万
北京市东城区东黄城根北街16号科学出版社
【岗位职责】
1.期刊XML数据标准制定与实施(核心重点)
a. 负责分析不同标准的期刊XML数据(如JATS、BITS、CrossRef等),制定符合我司业务需求的内部统一数据标准和规范。
b. 设计并开发强大的XML解析、验证、清洗和转换(ETL/ELT)流程,确保数据能准确映射到目标模型。
c. 建立数据质量监控规则和校验体系,对入库的期刊XML数据进行自动化质量检查和报告,确保数据的完整性、准确性和一致性。
d. 解决XML数据处理中遇到的复杂技术问题,如处理大型XML文件、解析复杂嵌套结构、字符编码问题等。
2.数据管道与平台开发(通用数据工程师职责)
a. 设计、构建和维护稳定、可扩展的数据管道,负责期刊数据从采集、处理到存储的全链路。
b. 管理和优化数据仓库/数据湖中相关数据模型,确保其能满足下游业务(如检索、推荐、分析)的需求。
c. 与数据科学家和分析师协作,为其提供高质量、易用的数据集合。
3. 标准维护与协作
a. 持续跟踪学术出版行业的数据标准演进,并据此优化内部标准和处理流程。
b. 与内容获取、产品经理和研发团队紧密协作,理解业务需求,并将其转化为技术方案。
c. 编写清晰的技术文档,包括数据标准说明书、数据处理流程说明和系统设计文档。
【任职要求】
1. 工作经验
a. 学历要求:硕士以上学历(211,985,双一流院校优先),计算机及相关专业优先
b. 3年以上数据工程师或相关领域工作经验。
c. 必须具备扎实的XML/JSON等结构化数据处理经验,熟悉XPath, XSLT, XML Schema (XSD) 等相关技术。
d. 拥有构建和维护ETL/ELT数据管道的实战经验。
2.技术技能:
a. 编程语言: 精通 Python 或 Java/Scala,并具备使用其处理XML/JSON数据的能力(如使用lxml, ElementTree, BeautifulSoup等库)。
b. 数据存储: 熟悉至少一种关系型数据库(如PostgreSQL, MySQL)和一种NoSQL数据库(如MongoDB)。
c. 大数据技术: 熟悉至少一种大数据处理框架,如 Spark(优先考虑)、Flink,或熟练使用SQL进行复杂数据处理。
3.软技能:
a. 对数据质量有极高的要求,做事严谨、细致,有强烈的责任心。
b. 具备优秀的逻辑分析和问题解决能力,能独立解决复杂的数据问题。
c. 具备良好的沟通能力和文档撰写能力。
4.优先考虑条件(加分项)
a. 有学术出版、数字图书馆、知识服务等相关行业背景,熟悉 JATS 等期刊标记标准。
b. 有使用或解析 Elsevier, Springer Nature, Wiley 等大型出版社XML数据的经验。
c. 有数据治理、数据质量管理或元数据管理相关项目经验。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕