职位详情
大数据开发工程师(数据采集方向)
7000-14000元
河南逸祥卫生科技有限公司
郑州
5-10年
本科
08-26
工作地址

河南逸祥卫生科技有限公司

职位描述
岗位职责:
1. 数据采集系统开发:
负责设计并开发高可用、高性能的数据采集系统,支持多源异构数据(网页、API、数据库、日志等)的自动化采集与整合。
主导分布式爬虫框架的设计与开发,解决复杂反爬机制(如验证码、IP封禁、动态加密等)。
利用RPA(机器人流程自动化)技术实现非结构化数据的自动化抓取及业务流程自动化。
2.数据处理与存储:
对采集的原始数据进行清洗、去重、结构化处理,确保数据质量和一致性。
设计数据存储方案,对接大数据存储组件(如HDFS、HBase、Kafka、Elasticsearch等)。
3.技术攻坚与优化:
持续优化爬虫和RPA工具的稳定性、效率和资源占用率,设计动态代理池、请求调度策略等。
监控数据采集任务的运行状态,开发异常告警及自动化恢复机制。
4.协作与支持:
与数据仓库、数据分析团队协作,提供高质量数据输入。
参与数据中台建设,支持业务部门的数据需求。
任职要求
1. 教育背景要求:本科及以上学历,计算机、软件工程、数学或相关专业。
2. 工作经验要求:3年以上大数据开发经验,精通数据采集相关技术,有大规模爬虫或RPA项目实战经验。
3. 技术能力要求:
-编程语言:精通Python/Java,熟悉常用爬虫框架(如Scrapy、Selenium、Playwright、BeautifulSoup)。
RPA工具:熟悉UiPath、Automation Anywhere、影刀等至少一种RPA工具,能独立开发复杂自动化流程。
数据库:熟练使用MySQL、MongoDB、Redis等,了解分布式存储原理。
分布式系统:熟悉Hadoop/Spark/Flink生态,具备分布式爬虫开发经验。
反爬策略:熟悉动态渲染、指纹识别、验证码破解等技术,有实际对抗经验。
网络协议:深入理解HTTP/HTTPS、WebSocket等协议,掌握抓包工具(如Charles、Wireshark)。

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请