岗位职责:
1.设计并实现日均亿级请求的分布式爬虫架构,保障系统99.99%可用性;
2.主导反反爬技术攻防体系构建(包括但不限于IP代理池、请求特征伪装、验证码破解、浏览器指纹对抗);
3.开发智能调度系统,实现分布式节点协同、动态负载均衡与故障自愈;
4.构建多维度监控体系(请求成功率、数据质量、资源消耗等核心指标);
5.制定数据清洗标准化流程,设计异构数据存储方案(关系型/非关系型/数据湖);
6.确保数据采集符合GDPR等数据合规要求,建立风险控制机制;
7.主导技术选型与核心组件研发,持续优化采集效率与成本控制。
任职要求:
1.计算机相关专业统招本科,4年以上中大型爬虫系统开发经验(特别优秀者可放宽)
2.精通以下技术栈:
语言:精通Java,最好了解一些Python
框架:Scrapy/WebMagic/Colly等二次开发经验
中间件:Redis/RabbitMQ/Kafka等分布式组件
浏览器自动化:Playwright/Selenium高级应用
协议深度:TCP/HTTP/WebSocket等网络层调优
3.具备复杂反爬场景实战经验(某宝/某音/某团等大型平台数据采集案例)
4.有分布式任务调度系统设计经验(Celery/Airflow等)
5.熟悉常见数据存储方案优化(分库分表/冷热分离/数据压缩)
【加分项】
1.有JS逆向/安卓逆向工程经验
2.主导过日请求量过亿级项目
3.熟悉深度学习在验证码识别中的应用
4.具备海外数据采集合规经验(CCPA等)
5.有开源爬虫框架贡献经历
五险一金、周末双休、带薪年假、节日福利、各项补贴、零食饮品全都有