职位描述
 工作职责:
1. 负责设计、开发、优化网络爬虫系统,采集并处理海量数据;
2. 研究并解决反爬技术,确保数据采集的稳定性和高效性;
3. 监控数据质量,清洗、存储和分析爬取的数据;
4. 维护和优化已有爬虫,提升爬取效率与数据准确性;
5. 研究最新的爬虫技术、分布式爬取、动态页面解析等,提升整体抓取能力;
6. 处理封禁、验证码、IP 限制等问题,优化爬取策略;
任职要求:
1. 计算机、软件工程等相关专业,2年以上工作经验;
2. 至少熟练使用一门编程语言:GO、PHP、JAVA、python等,具有良好的编程习惯,扎实的编程基础;
3. 具备分布式爬虫开发经验,熟练掌握相关爬虫框架,熟悉 HTTP 协议、网页解析技术、动态页面爬取方法;
4. 熟悉常见的反爬机制,掌握代理 IP 轮换、验证码识别、User-Agent 伪装等绕过技术;
5. 具备数据清洗、存储、处理的能力,熟悉 MySQL、MongoDB、Elasticsearch 等数据库;
6. 具有良好的代码规范和团队合作精神,责任心强,善于沟通。
  以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕