职位详情
python爬虫工程师(双休)
7000-11000元
建基工程咨询有限公司
郑州
1-3年
本科
07-28
工作地址

正商向阳广场-B座15A

职位描述
岗位职责:
1. 负责网络爬虫系统平台的架构设计与开发:
设计并实现高效、稳定、可扩展的爬虫系统架构,涵盖抓取调度、多样化抓取、页面解析和结构化抽取等核心模块。
进行技术选型,评估并选择合适的开源框架、工具和库,提升开发效率和系统性能。
2. 攻克爬虫技术难点,提升抓取效率和质量:
深入研究爬虫策略和防屏蔽规则,解决封账号、封IP、验证码、混淆加密、算法还原、so层、页面跳转等技术难题。
开发高效的反爬虫机制,提升网页抓取的成功率和数据质量。
3. 数据处理与平台优化:
对抓取后的数据进行清洗、存储和分析,确保数据准确性和完整性。
持续优化爬虫平台,提升系统性能、稳定性和可维护性,满足不断变化的爬取业务需求。
岗位要求:
1. 技术基础扎实:
精通Linux操作系统,具备丰富的Python编程经验,至少熟练掌握Scrapy、BeautifulSoup、Selenium等主流爬虫框架中的一种。
熟悉各种加密算法,在破解验证码方面有丰富经验,能够独立解决JS反爬和模拟登陆问题。
2. 数据处理能力强:
熟练掌握正则表达式、XPath、CSS等网页信息抽取技术,能够高效地从网页中提取所需数据。
熟悉常见反爬机制,如验证码识别、IP代理池、headers认证和cookie等。
熟悉数据清洗流程,能够使用numpy、pandas、jieba等工具对数据进行处理和分析。
3. 后端开发经验:
熟悉Flask、FastAPI等后端框架,能够开发和维护爬虫系统的后端服务。
熟悉MySQL、SQLite等数据库,能够进行数据库设计和优化。
4. 加分项:
有JS逆向相关项目经验,能够分析和破解复杂的JS加密算法。
有大规模分布式爬虫系统开发经验,熟悉相关技术栈和架构设计。
对数据挖掘、机器学习等领域有浓厚兴趣,并具备一定的实践经验。
5、统招第一学历本科及以上,学信网可查。

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请