岗位职责:
1、负责分布式网络爬虫系统设计,搭建系统框架,开发高可用、高并发的分布式网络爬虫系统。
2、设计和优化数据抓取策略,专注研究与破解各类复杂反爬机制(包括JS逆向、加密参数、高级验证码、浏览器指纹检测等),提升数据抓取的效率、质量与稳定性。
3、理解数据需求,快速响应和解决数据采集过程中的各类技术难题与反爬对抗问题。
4、建立和维护数据抓取任务的监控与质量保障体系,确保数据抓取任务的稳定运行和数据的及时交付。
任职要求:
1、计算机相关专业本科及以上学历,有3年以上爬虫开发经验,具备复杂反爬破解实战经验。
2、精通Python语言,至少熟练掌握Scrapy等主流爬虫框架中的一种,并能进行定制化开发。
3、熟悉常见反爬机制,具备强大的JS逆向能力,能破解加密参数、动态混淆JS;精通各类验证码识别技术,并有成功破解高级验证码(如滑块、点选)的项目经验。
4、有处理大规模数据的经验,对分布式爬虫系统有实际的架构和开发经验者优先。
5、良好的问题解决能力,善于沟通和团队合作,对爬虫与反爬虫新技术有强烈好奇心和学习能力。