职位详情
爬虫/数据开发工程师
面议
中通服设计院
南京
5-10年
本科
06-04
工作地址

中通服咨询设计研究院有限公司

职位描述

岗位职责

(1)负责服务端基于Java / Python编程技术实现系统内外部数据同步、数据采集及数据分析等功能模块的编码工作,确保数据处理过程的代码质量与可维护性;

(2)参与技术方案设计,与项目经理、前后端开发、AI开发协作,推动数据采集需求与系统业务逻辑的精准对接;

(3)设计并开发数据采集模块,通过爬虫技术抓取外部公开数据,结合 ETL 工具实现数据同步,完成数据解析、清洗、转换及结构化入库;

(4)遵循公司代码规范,编写高可复用的爬虫与数据处理代码,参与代码审查,优化数据采集性能(如分布式爬虫架构)与反爬策略(如 IP 池管理);

(5)参与数据模块的测试、联调及上线工作,确保内外部数据的一致性、准确性,保障系统中数据相关功能的交付质量。

任职资格

(1)本科或以上学历,计算机科学、软件工程、数据科学等相关专业;

(2)5 年及以上 Java 开发经验,3 年及以上爬虫与数据开发复合经验,具备爬虫类项目经验,具备企业级数据采集与处理的项目落地能力。有爬取过招标类网站数据经验者优先考虑;

(3)熟悉 Spring Boot、MyBatisplus开发框架,能设计数据采集模块与投标系统的接口集成方案;

(4)精通 MySQL/PostgreSQL 数据库,掌握索引优化、分库分表及数据建模,能设计爬虫与内部数据的存储架构;熟悉 Redis 缓存、Kafka 消息队列,实现数据实时同步与异步处理;

(5)精通 Scrapy、HttpClient 等爬虫框架,掌握 IP 池轮换、请求频率控制、UA 随机化等反爬技术;熟悉 Selenium、Puppeteer 等,能抓取动态页面数据;熟练使用 BeautifulSoup/JSoup 等解析 HTML,通过正则表达式提取关键信息;了解分布式爬虫架构(如 Scrapy-Redis),具备 TB 级情报数据采集与处理经验;

(6)熟悉 ETL 工具(如 Kettle、DataX)或其他数据同步框架,能完成企业内部系统平台的数据对接;熟悉数据清洗、转换规则,能基于业务规范设计数据校验逻辑;掌握 SQL 优化技巧,能编写复杂查询语句实现数据关联分析;了解数据可视化基础(如 ECharts 图表开发),可配合前端展示数据采集结果;

(7)熟练使用 Git 版本控制工具,理解前后端协作模式,具备容器化部署(Docker/Kubernetes)经验;

(8)能够适应出差。

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请