职位描述
实战技能:
1、做过 新媒体 例如 微博、公众号、抖音 等新媒体数据爬取。
岗位职责:
1、负责设计和开发分布式爬虫和调度系统,爬虫核心算法和调度策略优化;
2、负责部分网站验证码破解和现有爬虫系统效率的提升;
3、负责网络数据抓取规划和数据链路规划、高效且稳定爬取指定网站的数据;
4、构建高可用性、高可扩展性的网络信息搜集平台;
5、优化现有数据清洗,数据提取,结构化,入库等过程;
6、有爬取新媒体数据的实战经验,如:微信公众号、微博、抖音、快手、西瓜、头条等
7、会解密,各种验证码,滑块验证码,加减乘除,协议爬取,新媒体爬取等,数据库,js逆向,分析数据标签化
8、熟练掌握正则表达式、XPath、json数据传输、HTML、CSS、js等网页信息抽取技术。
9、熟悉各种爬虫技术:adsl拨号、正则表达式、脱壳技术、加密、图片破解、二维码识别、滑块验证码破解、httpClient、分布式爬虫调度、代理ip调度算法、配置化爬虫、授权爬虫;
任职要求
1、计算机相关专业,python语言,三年以上爬虫经验;
2、有独立负责过爬虫平台搭建、爬虫系统处理经验,爬虫项目规划能力;
3、熟悉Scrapy、Pyspider、nutch、webmagic等主流爬虫框架使用,了解js引擎技术等优先考虑;
4、熟悉js逆向,混淆原理,js语法树,客户端常用签名算法等;
5、具备web挖掘等搜索引擎相关知识,有丰富的网络爬虫、网页去重、网页信息抽取的经验;
6、掌握网页抓取原理及技术,包括基于Cookie的登录管理,基于headless的采集,熟悉正则表达式、XPath、Jsoup等网页信息抽取技术;
7、熟悉Linux平台开发、常用操作及命令,良好的编码习惯,有独立思考的能力,善于解决问题;
8、具备较强的团队协作精神,工作责任心强,良好的沟通、理解和执行能力。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕