主要负责互联网的公开信息进行采集的工作,主要是需要接口分析、抓包代理、逆向工程等等。详情见岗责。
【岗位职责】
1、负责多平台信息(视频、音频、图片、文章等)爬取,包括APP端采集,agent相关数据采集等。
2、负责设计和开发分布式网络爬虫系统、技术选型。
3、持续对系统进行架构改造和优化,提升系统的稳定性与可扩展性,保障系统稳定,高效,安全。
4、参与数据采集平台架构设计和开发工作。
【岗位要求】
1、3年及以上网络爬虫相关、采集平台、rpa相关开发经验。
2、熟练掌握Python编程语言及常用采集框架,深入了解框架提供的特性及其实现原理细节。
3、熟练掌握PC/Android自动化采集技术,如playwright,selenium、dirssionpage等。
4、研究爬虫策略和防屏蔽规则,解决封账号、封IP、验证码、混淆加密,页面跳转等难点攻克,提升网页抓取的效率和质量。
5、熟悉风控逆向相关技术,国内外验证码破解等;熟悉如何TLS 指纹、逆向、混淆、JS补环境等技术,以及各类加密算法,譬如(AES、RSA、Base64,Md5、SHA 系列等)。
6、具有良好的沟通能力、学习能力、分析解决问题能力,有较强的责任心、自驱力和成长型思维;
7、有长期规模化采集系统建设经验优先;有国外人机验证码破解经验优先;有computer use/phone use等agent相关数据采集经验优先。