1.5-2万
中通服咨询设计研究院有限公司
岗位职责
(1)负责服务端基于Java / Python编程技术实现系统内外部数据同步、数据采集及数据分析等功能模块的编码工作,确保数据处理过程的代码质量与可维护性;
(2)参与技术方案设计,与项目经理、前后端开发、AI开发协作,推动数据采集需求与系统业务逻辑的精准对接;
(3)设计并开发数据采集模块,通过爬虫技术抓取外部公开数据,结合 ETL 工具实现数据同步,完成数据解析、清洗、转换及结构化入库;
(4)遵循公司代码规范,编写高可复用的爬虫与数据处理代码,参与代码审查,优化数据采集性能(如分布式爬虫架构)与反爬策略(如 IP 池管理);
(5)参与数据模块的测试、联调及上线工作,确保内外部数据的一致性、准确性,保障系统中数据相关功能的交付质量。
任职资格
(1)本科或以上学历,计算机科学、软件工程、数据科学等相关专业;
(2)5 年及以上 Java 开发经验,3 年及以上爬虫与数据开发复合经验,具备爬虫类项目经验,具备企业级数据采集与处理的项目落地能力。有爬取过招标类网站数据经验者优先考虑;
(3)熟悉 Spring Boot、MyBatisplus开发框架,能设计数据采集模块与投标系统的接口集成方案;
(4)精通 MySQL/PostgreSQL 数据库,掌握索引优化、分库分表及数据建模,能设计爬虫与内部数据的存储架构;熟悉 Redis 缓存、Kafka 消息队列,实现数据实时同步与异步处理;
(5)精通 Scrapy、HttpClient 等爬虫框架,掌握 IP 池轮换、请求频率控制、UA 随机化等反爬技术;熟悉 Selenium、Puppeteer 等,能抓取动态页面数据;熟练使用 BeautifulSoup/JSoup 等解析 HTML,通过正则表达式提取关键信息;了解分布式爬虫架构(如 Scrapy-Redis),具备 TB 级情报数据采集与处理经验;
(6)熟悉 ETL 工具(如 Kettle、DataX)或其他数据同步框架,能完成企业内部系统平台的数据对接;熟悉数据清洗、转换规则,能基于业务规范设计数据校验逻辑;掌握 SQL 优化技巧,能编写复杂查询语句实现数据关联分析;了解数据可视化基础(如 ECharts 图表开发),可配合前端展示数据采集结果;
(7)熟练使用 Git 版本控制工具,理解前后端协作模式,具备容器化部署(Docker/Kubernetes)经验;
(8)能够适应出差。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕