职位描述
1、负责开发网络爬虫系统以及优化爬虫策略,进行多平台信息的抓取和分析;
2、完成客户数据采集与爬取、解析处理、入库等客户数据日常工作;
3、负责公司爬虫的核心算法以及策略优化,熟悉采集系统的调度策略;
4、设计爬虫策略和防屏蔽规则,提升网页抓取的效率和质量,提升爬虫系统的稳定性、可扩展性;
5、实时监控爬虫的进度和警报反馈;
任职资格:
1. 本科以上学历,具有2年以上实际网络爬虫或分布式采集开发工作经验 ,能力优秀者可适当放宽学历限制;
2. 熟悉python语言,具备扎实的编程功底,具有良好的程序设计能力;
3. 熟悉爬虫原理,熟悉Scrapy、pyspider等主流爬虫框架框架,能够解决封账号、封IP、验证码、网页限制爬取等问题;
4. 熟练使用python request、xpath、BeautifulSoup、正则等模块;
5. 了解各种Web前端技术,包括XHTML、CSS、JavaScript、AJAX等;
6. 熟悉mysql、mongodb、redis客户数据库基本操作;
7. 熟悉Linux系统及其命令操作,熟悉Git版本管理工具;
8. 业务理解和分析转化能力较强,富有进取精神及团队合作精神,责任心强,善于合作沟通,能够承受压力;
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕