职位详情
数据抓取工程师
1-2万
北京国金汇德工程管理有限公司
北京
3-5年
本科
01-26
工作地址

北京汽车集团有限公司党校5楼

职位描述
岗位职责
• 体系化建设:主导分布式爬虫系统的架构设计、开发与落地,构建高可用、可扩展的抓取体系,保障系统稳定性达99.9%以上。
• 策略迭代与优化:结合业务场景制定动态抓取策略,优化调度算法与解析规则,实现数据采集效率提升30%以上,确保数据全面性与准确性。
• 反爬攻坚与风控:深入研究前沿反爬技术(如JS逆向、行为验证等),建立多维度反爬策略库,解决封IP、验证码、动态渲染等核心难点,降低账号风险率。
• 数据全流程管理:设计数据清洗、脱敏、结构化存储方案,对接Kafka、MongoDB、Hadoop等数据组件,构建从抓取到落地的全链路监控体系,实现数据质量可追溯。
• 技术创新与沉淀:跟踪爬虫领域新技术趋势,推动技术创新(如AI辅助解析、智能调度等),沉淀可复用的抓取工具与解决方案,提升团队技术能力。
任职要求
• 经验与合规意识:3-5年数据抓取领域实战经验,熟悉《网络安全法》《数据安全法》等法律法规,具备合规数据采集方案设计能力。
• 技术栈精通:熟练掌握Python编程,深入理解Scrapy/Feapder/Crawley等至少一种爬虫框架;精通MySQL、MongoDB、Redis等存储技术,熟悉Kafka消息队列及分布式系统原理。
• 核心技能:精通Fiddler/Charles/Reqable等抓包工具,熟练运用正则表达式、XPath、CSS Selector解析数据;具备扎实的JS逆向、AST混淆分析能力,能独立攻克滑块、点选等验证码。
• 架构与优化能力:具备大型爬虫系统架构设计经验,熟悉多线程、多进程、异步IO等并发模型,有性能调优及容灾方案落地案例。
• 软技能:优秀的逻辑思维与问题解决能力,对技术难题有强烈攻坚欲;具备良好的沟通协作能力,能跨团队推动业务需求落地。

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请