职位描述
岗位职责
1.负责各类网站、APP 等数据源的爬虫系统设计与开发,能够根据需求制定合理的爬取策略,确保数据的高效、准确获取。
2.针对不同的网站反爬机制,进行技术攻关,优化爬虫程序,提高爬取成功率和稳定性,如处理验证码、IP 封锁、动态页面等问题。
3.对爬取到的原始数据进行清洗、去重、格式转换等处理,保证数据的质量和可用性,为后续的数据分析和应用提供可靠的数据支持。
4.设计和维护爬虫相关的数据库,合理存储爬取的数据,确保数据的安全性和完整性,同时优化数据库查询性能。
5.监控爬虫系统的运行状态,及时发现并解决爬取过程中出现的问题,如程序报错、数据缺失等,保证系统的持续稳定运行。
6.与数据分析、产品等相关团队进行沟通协作,理解业务需求,根据需求调整爬虫策略和数据处理方式,满足不同的业务场景需求。
7.研究爬虫领域的新技术、新方法,并将其应用到实际工作中,不断提升爬虫系统的效率和性能。
任职要求
1.本科及以上学历,计算机相关专业,[5] 年以上爬虫开发经验,有大型网站或复杂数据源爬取经验者优先。
2.熟练掌握 Python、java 编程语言,熟悉 Scrapy、BeautifulSoup、Requests、Selenium、java 接口调用等常用爬虫框架和库,能够独立开发和维护爬虫程序。
3.了解 HTTP/HTTPS 协议,熟悉网页结构和前端技术(HTML、CSS、JavaScript),能够分析网页源码和接口,提取所需数据。
4.熟悉常见的反爬机制及应对方法,有过突破反爬策略的实际案例者优先。
掌握至少一种数据库(如 MySQL、MongoDB 等)的使用,熟悉数据库查询优化和数据存储设计。
5.具备良好的问题分析和解决能力,能够快速定位并解决爬虫系统运行中出现的各种技术问题。
6.具有良好的沟通能力和团队协作精神,能够积极配合团队完成各项工作任务。
工作认真负责,有较强的学习能力和创新精神,能够适应技术的快速发展和变化。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕