职位详情
爬虫工程师
1-1.5万
北京京人教育科技有限公司河北分公司
石家庄
5-10年
本科
01-28
工作地址

泰丰大厦(中华南大街)1501

职位描述
任职要求:
1. 统招本科及以上学历,计算机相关专业,3-5 年以上爬虫开发经验,具备大型分布式爬虫系统设计与落地经验;5 年以上经验者优先负责架构与核心策略。
2. 编程语言与框架
精通 Python,熟练使用 Scrapy、Requests、AIOHTTP、Playwright/Selenium 等;熟悉异步编程、多线程 / 多进程。
掌握 JavaScript,能处理 JS 渲染、混淆、调试与 Hook(如 Tampermonkey、Frida);了解 App 逆向(Android/iOS)优先。
3. 网络与协议
深入理解 HTTP/HTTPS、TCP/IP、WebSocket、浏览器渲染原理,熟练使用 Charles、Fiddler、Mitmproxy、Wireshark 抓包定位问题。
掌握请求伪造(UA 轮换、Cookie 池、Referer/Origin 伪装)、动态内容抓取(无头浏览器 / API 直连)、代理池与 IP 轮换技术。
4. 反爬对抗实战
攻克验证码(图像识别、滑块、点选)、设备指纹、频率限制、JS 混淆 / 加固、反调试等;具备 OCR、打码平台对接或机器学习辅助识别经验。
设计智能调度策略:动态限速、随机休眠、指数退避重试、增量 / 全量抓取切换,保障高可用与低封禁率。
5. 数据存储与处理
熟练使用 MySQL/PostgreSQL(结构化)、MongoDB/Redis(非结构化 / 缓存)、Elasticsearch(检索);掌握数据建模、分库分表、索引优化。
具备数据清洗、去重、结构化、质量校验能力,熟悉 Pandas、NumPy 等工具。
6. 分布式与工程架构
设计高可用分布式爬虫:消息队列(Kafka/RabbitMQ)、任务调度(Airflow/Celery)、分布式存储与负载均衡。
掌握 Linux 运维:Shell 脚本、性能调优、Docker 容器化部署、CI/CD 流程。
监控与可观测性:Prometheus+Grafana、日志系统(ELK)、报警机制,保障 7×24 小时稳定运行。
二、岗位职责:
· 设计与开发分布式爬虫系统,保障亿级数据采集效率与质量。
· 攻克目标网站反爬机制,持续优化抓取策略与成功率。
· 数据治理:清洗、结构化、存储与质量监控,支撑业务分析与 AI 训练。
· 系统运维与监控:保障高可用,快速响应故障与网站结构变更。
· 技术沉淀:文档输出、团队赋能、新技术预研与落地。
岗位福利:
五险,双休,法休

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请