职位描述
岗位职责:
1.研发爬虫工具:负责业务需求的数据采集与爬取、解析处理、入库及备份等数据工作。
2.研究Web、APP反爬策略,攻克技术难点,破解反爬机制,优化爬虫路由调度策略,同时负责反爬策略的设计及优化;
3. 负责爬虫核心算法的策略优化研究,提升爬虫抓取效率和质量,提升数据抓取的效率和质量;
4. 设计爬虫策略和防屏蔽规则,解决封账号、封IP、验证码、JS加密等难点攻克;
5.数据清洗与整合:对抓取到的数据进行清洗、去重、格式化等预处理工作,确保数据的准确性、完整性和一致性。
6.技术研究与创新:跟踪最新的爬虫技术、数据处理算法及GIS领域的发展动态,特别是三维数据的相关技术,不断探索并引入新技术以提升工作效率和数据质量。
任职要求:
1. GIS、遥感、计算机、软件工程相关专业,本科及以上学历。
2. python基础扎实,熟练掌握Java、C++中至少一种,有爬虫开发经验者优先。
3. 熟练使用Scrapy、BeautifulSoup、Selenium等爬虫框架和工具,精通爬虫相关技术(requests/xpath/scrapy/正则表达式/验证码加密处理/代理池),熟悉js加密,了解python常见执行js方法;熟悉常用反爬应对方法,熟悉模拟器使用和爬取。
4. 熟悉地理信息相关知识,对地理信息基础算法熟练掌握,深入了解GIS数据格式(如Shapefile、GeoJSON、KML、OSGB、3D Tiles等)及空间数据库(PostGIS、SpatiaLite等)的使用。
5. 熟悉常见地理信息数据发布服务,如WMS、WMTS、WFS等。
6. 具备良好的数据处理能力,熟悉Pandas、NumPy、GDAL等数据处理库,以及三维数据处理工具。
7. 具有良好的学习能力,有良好的团队意识及责任心,有良好的抗压能力。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕