1.5-2.2万
江西济民可信集团有限公司(总部)
岗位职责
1. 负责设计、开发和维护高效、稳定的爬虫系统,满足公司各类数据采集需求,涵盖市场数据、行业动态、竞品信息等;
2. 综合运用Python、Java、Node.js等编程语言进行爬虫程序开发,根据不同网站的结构和反爬策略,选择合适的技术方案,确保代码具备良好的质量、性能和可扩展性;
3. 深入分析网页结构,熟练运用HTML、CSS、JavaScript知识,精准解析和提取目标数据,处理复杂的动态网页内容,如AJAX加载、JavaScript渲染数据等;
4. 与数据分析师、算法工程师等团队紧密协作,理解数据需求,提供精准、完整的数据抓取解决方案,保障数据的准确性和及时性,为公司的业务决策和算法训练提供有力支持;
5. 实时监控爬虫运行状态,及时发现并解决性能瓶颈、数据丢失、反爬限制等问题,通过优化代码、调整抓取策略等方式,持续提升爬虫的抓取效率和稳定性;
6. 研究并应对各类反爬机制,如IP封锁、验证码识别、用户行为检测等,运用代理池、验证码识别技术、模拟用户行为等手段,实现有效的反反爬策略,确保爬虫能够稳定运行;
7. 定期维护和更新现有爬虫系统,根据网站结构变化和业务需求调整,及时优化抓取逻辑,保证数据的持续获取和有效性;
8. 编写详细、规范的技术文档,记录爬虫系统的设计架构、开发流程、关键代码逻辑以及维护要点,方便团队成员进行技术交流和后续维护。
任职要求
1、计算机科学、软件工程、数学等相关专业本科及以上学历;
2、4年以上爬虫开发工作经验,具备多个完整爬虫项目的开发和维护经验;
3、有过处理反爬策略的成功案例,如绕过验证码、突破IP封锁等,能够分享有效的反反爬经验和技术手段;
4、熟练掌握Python、Java、Node.js中至少两种编程语言;精通HTML、CSS、JavaScript;熟悉HTTP/HTTPS协议;拥有数据库使用经验,熟练掌握SQL(如MySQL、Oracle)和NoSQL(如MongoDB、Redis)数据库的基本操作,能够设计合理的数据存储结构;熟悉分布式爬虫技术,如Scrapy - Redis等框架,能够构建大规模、高性能的分布式爬虫系统,提升数据采集效率;
5、具备较强的问题分析和解决能力,能够快速定位和解决爬虫开发过程中遇到的各种技术难题,如数据抓取异常、性能优化等,善于通过调试工具和技术手段进行问题排查;
6、对新技术保持敏锐的学习热情和好奇心,能够快速掌握并应用新的爬虫技术和工具,适应不断变化的技术环境和业务需求。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕