岗位职责:
1.对指定的网站进行网页抓取、数据提取、破解反爬策略;
2.负责多平台信息抽取、数据清洗、入库、服务化等研发和优化工作;
3.参与开发和设计分布式网络爬虫系统,进行信息的抓取和分析工作;
4.研究优化爬虫算法,提升爬虫系统的稳定性、可扩展性;
5.独立解决实际开发过程中碰到的各类产品数据需求和接口问题。
任职资格:
1、本科及以上学历,计算机相关专业,5年以上工作经验。
2、精通python编程语言,熟悉scrapy等常用数据抓取框架以及原理,熟悉网页信息和APP数据抽取,能够设计分布式爬虫系统框架;
3、精通 Charles等抓包工具,精通网页抓取原理及技术,精通正则表达式,熟练从结构化和非结构化的数据中获取信息;
4、精通 JS debugger、JS逆向;
5、精通 selenium 、DrissionPage 等自动化抓取技术;
6、把握网络爬虫核心技术研究方向,研究优化算法,提升爬虫系统的稳定性、可扩展性;
7、研究爬虫策略和防屏蔽规则,解决封账号、封IP、验证码、页面跳转等难点攻克,提升网页抓取的效率和质量
8、优先条件,对APP脱壳、APP逆向反编译或者有快手、抖音数据爬取经验,或者对机器学习算法有一定了解。