职位详情
python爬虫工程师
7000-12000元
河南初安科技服务有限公司
郑州
3-5年
本科
01-05
工作地址

光合大厦

职位描述


职位描述:


1、负责网络爬虫系统平台的架构设计与开发(如抓取调度,多样化抓取,页面解析和结构化抽取)、技术选型;


2、研究爬虫策略和防屏蔽规则,解决封账号、封IP、验证码、混淆加密,算法还原,so层,页面跳转等难点攻克,提升网页抓取的效率和质量;


3、对抓取后的数据进行清洗、存储等,并持续优化平台,以便满足各种爬取业务需求。


岗位要求:


1. 精通Linux/UNIX,精通Python语言,至少熟练掌握主流爬虫框架中的一种;


2. 了解各种加密算法,在破解验证码方面有丰富经验,能够独立解决js反爬和模拟登陆问题;


3. 熟练掌握正则表达式、XPath、CSS等网页信息抽取技术;


4. 熟悉常见反爬机制,验证码识别,IP代理池、应用Ip池、headers认证和cookie等;


5. 熟练掌握应用Selenium、PhantomJS、Splash、Puppeteer实施动态抓取;


6. 熟悉熟练使用charles、fiddler等抓包工具者优先;


7. 熟悉数据清洗,能够用numpy、pandas、jieba等工具对数据进行处理者优先;


8. 熟悉mysql、mongodb、redis、rabbitMQ、kafka、spark者优先;


以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请