职位描述
工作职责
1.设计并开发高性能分布式爬虫架构,支持Web网站数据抓取。
2.建立完整的数据采集、解析、存储及监控流程,确保数据实时性、完整性与准确性。
3.突破复杂反爬机制(如IP封禁、验证码、JS混淆、加密算法、动态渲染),配合反爬策略系统化设计。
4.对数据进行清洗、去重、结构化数据,对接大数据存储。
5.实时监控爬虫运行状态,构建警报反馈机制,快速响应网站策略变更。
6.探索AI辅助爬虫技术(如自动化解析、OCR识别),推动团队技术升级。
7.协同数据工程师优化数据处理流程,支持业务端数据需求。
任职资格
1.统招大专及以上学历,计算机/数学/统计相关专业,1年以上爬虫开发经验。
2.精通Python,正则表达式/CSS选择器,能处理动态渲染页面
3.熟练操作MySQL/MongoDB/Redis/ES,熟悉Kafka/RabbitMQ等消息队列
4.熟练使用Scrapy/Selenium/Feapder等框架,具备高并发系统开发经验。
5.有分布式爬虫架构、海外平台(如Cloudflare防护网站)突破经验者加分。
6.掌握JAVA/PHP/Vue,有反爬经验者优先。
7.强自驱力与问题解决能力,能独立攻克技术难点(如瑞数加密、极验验证码)。
8.良好的团队协作意识,适应快节奏迭代需求
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕