职位描述
岗位职责:
1、负责各类网站、APP 等数据源的爬虫系统设计与开发,能够根据需求制定合理的爬取策略,确保数据的高效、准确获取。
2、对爬取到的原始数据进行清洗、去重、格式转换等处理,保证数据的质量和可用性,为后续的数据分析和应用提供可靠的数据支持。
3、设计和维护爬虫相关的数据库,合理存储爬取的数据,确保数据的安全性和完整性,同时优化数据库查询性能。
4、监控爬虫系统的运行状态,及时发现并解决爬取过程中出现的问题,如程序报错、数据缺失等,保证系统的持续稳定运行。
5、与数据分析、产品等相关团队进行沟通协作,理解业务需求,根据需求调整爬虫策略和数据处理方式,满足不同的业务场景需求,不断提升爬虫系统的效率和性能。
6、精通数据分析。
任职要求:
1、本科及以上学历,计算机相关专业,2年以上爬虫开发经验,有大型网站或复杂数据源爬取经验者优先。
2、熟练掌握 Python、java 编程语言,熟悉 Scrapy、BeautifulSoup、Requests、Selenium、java 接口调用等常用爬虫框架和库,能够独立开发和维护爬虫程序。
3、了解 HTTP/HTTPS 协议,熟悉网页结构和前端技术(HTML、CSS、JavaScript),能够分析网页源码和接口,提取所需数据。
4、熟悉常见的反爬机制及应对方法,掌握至少一种数据库(如 MySQL、MongoDB 等)的使用,熟悉数据库查询优化和数据存储设计。
5、具备良好的问题分析和解决能力,能够快速定位并解决爬虫系统运行中出现的各种技术问题。
6、具有良好的沟通能力和团队协作精神,能够积极配合团队完成各项工作任务。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕