爬虫工程师/高级爬虫工程师
学历要求
•计算机、软件工程、信息科学或相关专业本科及以上学历
工作经验要求
•3年以上Web爬虫开发经验
•至少主导或深度参与过 3个以上中大型爬取项目(如电商、新闻、社交平台、搜索引擎数据源等)
•有从零搭建分布式爬虫系统经验者优先
岗位职责
1. 负责大规模互联网公开数据的采集、解析、清洗与结构化存储;
2. 设计并实现高可用、高并发、抗反爬的分布式爬虫系统;
3. 深度研究目标网站的反爬机制(如JS加密、滑块验证码、IP封锁、行为检测等),并制定破解方案;
4. 维护现有爬虫集群,优化采集效率与稳定性;
5. 与数据工程师、算法团队协作,提供高质量结构化数据支持;
6. 编写技术文档,指导初级工程师,参与技术评审与架构设计;
7. 关注法律法规与合规性,确保数据采集符合《网络安全法》《数据安全法》等要求。
任职要求(核心技术点 必备技能:
•精通 Python,熟练使用 Scrapy、Requests、Selenium、Playwright、BeautifulSoup、lxml 等爬虫框架与库;
•熟悉 HTTP/HTTPS、TCP/IP、Cookie、Session、User-Agent、Referer 等协议机制;
•熟练掌握 JavaScript逆向分析,能使用 Chrome DevTools、Fiddler、Charles 进行抓包与调试;
•熟悉常见反爬机制及应对方案:
•动态渲染页面(SPA)采集
•验证码识别(OCR、打码平台、模型识别)
•IP代理池建设与调度(自建/第三方)
•请求频率控制、指纹伪装、行为模拟
•熟悉 数据存储与中间件:MySQL、MongoDB、Redis、Kafka、Elasticsearch;
•熟悉 分布式架构:能使用 Scrapy-Redis、Celery、Kubernetes、Docker 构建分布式爬虫集群;
•具备基础的 Linux 操作能力,能编写 Shell 脚本进行自动化部署与监控。