python算法工程师
1-2万
郑州 本科
光合大厦
职位描述:
1、负责网络爬虫系统平台的架构设计与开发(如抓取调度,多样化抓取,页面解析和结构化抽取)、技术选型;
2、研究爬虫策略和防屏蔽规则,解决封账号、封IP、验证码、混淆加密,算法还原,so层,页面跳转等难点攻克,提升网页抓取的效率和质量;
3、对抓取后的数据进行清洗、存储等,并持续优化平台,以便满足各种爬取业务需求。
岗位要求:
1. 精通Linux/UNIX,精通Python语言,至少熟练掌握主流爬虫框架中的一种;
2. 了解各种加密算法,在破解验证码方面有丰富经验,能够独立解决js反爬和模拟登陆问题;
3. 熟练掌握正则表达式、XPath、CSS等网页信息抽取技术;
4. 熟悉常见反爬机制,验证码识别,IP代理池、应用Ip池、headers认证和cookie等;
5. 熟练掌握应用Selenium、PhantomJS、Splash、Puppeteer实施动态抓取;
6. 熟悉熟练使用charles、fiddler等抓包工具者优先;
7. 熟悉数据清洗,能够用numpy、pandas、jieba等工具对数据进行处理者优先;
8. 熟悉mysql、mongodb、redis、rabbitMQ、kafka、spark者优先;
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕