岗位职责:
1. 根据业务需求,研究爬虫策略和防屏蔽规则,设计和开发分布式爬虫,支持高并发多平台抓取;
2. 负责网页信息抽取、简单清洗、数据入库等开发;
3. 提升爬虫稳定性及可扩展性,充分利用资源,优化爬虫效率和质量。
任职资格:
1. 计算机软件及相关专业本科毕业;
2. 1年以上爬虫项目开发经验,优秀毕业生亦可;
3.了解或处理过手机端抓包、源码分析等;
4.了解或处理过webpack、jsvmp等
5. 熟悉爬虫原理及常见的反爬虫技术,如cookie、js加密、base64等;
6. 熟练运用python及多进程、多线程开发;
7. 熟练使用scrapy、requests、selenium、pyppeteer等爬虫包;
8. 熟悉html,正则、xpath等提取技术;
9. 熟悉Mysql、Redis等数据库及相关操作;
10. 熟悉Linux基础命令;
11. 有Django/Flask等web框架开发经验者优先。