职位描述
1.设计并开发高性能分布式爬虫架构,支持Web网站数据抓取。
2.建立完整的数据采集、解析、存储及监控流程,确保数据实时性、完整性与准确性。
3.突破复杂反爬机制(如IP封禁、验证码、JS混淆、加密算法、动态渲染),配合反爬策略系统化设计。
4.对数据进行清洗、去重、结构化数据,对接大数据存储。
5.实时监控爬虫运行状态,构建警报反馈机制,快速响应网站策略变更。
6.探索AI辅助爬虫技术(如自动化解析、OCR识别),推动团队技术升级。
7.协同数据工程师优化数据处理流程,支持业务端数据需求。
任职资格
1.设计并开发高性能分布式爬虫架构,支持Web网站数据抓取。
2.建立完整的数据采集、解析、存储及监控流程,确保数据实时性、完整性与准确性。
3.突破复杂反爬机制(如IP封禁、验证码、JS混淆、加密算法、动态渲染),配合反爬策略系统化设计。
4.对数据进行清洗、去重、结构化数据,对接大数据存储。
5.实时监控爬虫运行状态,构建警报反馈机制,快速响应网站策略变更。
6.探索AI辅助爬虫技术(如自动化解析、OCR识别),推动团队技术升级。
7.协同数据工程师优化数据处理流程,支持业务端数据需求。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕