职位描述
岗位职责:
1、发掘负责各种网页、APP接口特点和规律,从事网页及APP数据采集的技术研发工作;
2、负责设计爬虫策略及防屏蔽规则,建设反爬对抗组件库,提升网页抓取的效率和质量;
3、参与数据层建设,专注于垂直领域数据爬取,进行多平台信息的抓取和分析;
4、负责智能采集系统设计与研发,如采集任务调度,页面解析和结构化抽取,海量数据存储和读取等;
任职要求:
1、熟悉Linux操作系统 ,熟练掌握Python,javascript,扎实的数据结构和算法功底;
2、熟悉 scrapy、pyspider 等爬虫框架;
3、熟悉各种爬虫技术:adsl拨号、正则表达式、脱壳技术、加密、图片破解、二维码识别、滑块验证码破解、httpClient、分布式爬虫调度、代理ip调度算法、配置化爬虫、授权爬虫等;
4、熟悉常见的反爬虫技术及其突破方案,对常见各类反爬方式(如账号/IP封禁、验证码、js混淆加密、滑块验证、数据混淆等)有一定解决经验;
5、熟悉Mysql和NoSql(MongoDB,Redis,Hbase等);
6、大专及以上学历,计算机或统计学相关专业;
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕