核心岗位职责
•体系化建设:主导分布式爬虫系统的架构设计、开发与落地,构建高可用、可扩展的抓取体系,保障系统稳定性达99.9%以上。
•策略迭代与优化:结合业务场景制定动态抓取策略,优化调度算法与解析规则,实现数据采集效率提升30%以上,确保数据全面性与准确性。
•反爬攻坚与风控:深入研究前沿反爬技术(如JS逆向、行为验证等),建立多维度反爬策略库,解决封IP、验证码、动态渲染等核心难点,降低账号风险率。
•数据全流程管理:设计数据清洗、脱敏、结构化存储方案,对接Kafka、MongoDB、Hadoop等数据组件,构建从抓取到落地的全链路监控体系,实现数据质量可追溯。
•技术创新与沉淀:跟踪爬虫领域新技术趋势,推动技术创新(如AI辅助解析、智能调度等),沉淀可复用的抓取工具与解决方案,提升团队技术能力。
任职资格要求
•经验与合规意识:3-5年数据抓取领域实战经验,熟悉《网络安全法》《数据安全法》等法律法规,具备合规数据采集方案设计能力。
•技术栈精通:熟练掌握Python编程,深入理解Scrapy/Feapder/Crawley等至少一种爬虫框架;精通MySQL、MongoDB、Redis等存储技术,熟悉Kafka消息队列及分布式系统原理。
•核心技能:精通Fiddler/Charles/Reqable等抓包工具,熟练运用正则表达式、XPath、CSS Selector解析数据;具备扎实的JS逆向、AST混淆分析能力,能独立攻克滑块、点选等验证码。
•架构与优化能力:具备大型爬虫系统架构设计经验,熟悉多线程、多进程、异步IO等并发模型,有性能调优及容灾方案落地案例。
•软技能:优秀的逻辑思维与问题解决能力,对技术难题有强烈攻坚欲;具备良好的沟通协作能力,能跨团队推动业务需求落地。
加分项
•拥有覆盖5000+网站的资讯/电商采集系统设计与运维经验,能实现动态网站的高效结构化提取。
•熟悉Selenium/Playwright等自动化工具,具备浏览器指纹绕过、无头浏览器优化经验。
•有开源爬虫项目贡献经历,或在技术社区发表过爬虫相关深度文章。
•具备AI大模型与数据抓取结合的实践经验(如利用LLM进行非结构化数据解析)。