职位详情
爬虫工程师
4000-6000元
上海极达空调设备有限公司
重庆
1-3年
本科
05-01
工作地址

梁平区科技企业孵化园5栋5层D09

职位描述
一、工作职责
1、需求分析与规划:与团队成员或客户沟通,了解数据需求,确定需要爬取的数据类型、来源和频率。规划爬虫程序的实现方案,包括架构设计、技术选型等。
2、爬虫程序开发与维护:编写爬虫程序,利用HTTP请求模拟浏览器行为,访问目标网站并抓取所需数据。对爬虫程序进行调试和维护,确保稳定运行和高效爬取。
3、数据解析与提取:分析目标网站的页面结构和数据格式,使用正则表达式XPath、CSS选择器等技术提取所需数据。对抓取到的数据进行清洗、去重、格式化等处理,确保数据质量。
4、反爬虫应对:了解并分析目标网站的反爬虫策略,采取相应的手段应对,如设置请求头、使用代理IP、模拟用户行为等。不断优化爬虫策略,降低被封禁的风险。
5、性能优化与扩展:不断优化爬虫程序的性能和稳定性,提高爬取效率和数据准确性。根据需求扩展爬取范围和功能,满足新的数据需求。
6、法律合规与道德考量:遵守相关法律法规和道德准则,尊重网站的使用条款和robots.txt文件。确保爬取行为的合法合规,不侵犯他人的合法权益。
二、岗位职责:
1、精通至少一种编程语言(如Python、Java等),熟悉正则表达式、XPath等技术;
2、熟悉HTTP协议、TCP/IP协议等网络通讯原理;熟悉MySQL数据库,了解MySQL索引优化、查询优化和存储优化,熟悉大数据开发框架;
3、负责从互联网上自动获取和提取数据,以满足企业的数据分析和业务需求,为企业的决策支持、市场研究、产品优化等提供数据基础。
(前期需到上海工作2个月,包住宿与午餐)
专业要求: 计算机科学与技术,电子与计算机工程,计算机应用技术,计算机网络技术,软件工程(可接受应届生)

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请