职位描述
⼯作内容
1. 数据采集平台建设 。设计 、开发并维护⾼并发分布式爬⾍系统 ,保证多源数据稳定 、⾼效 抓取。
2. Python 爬⾍开发。基于 Python(Scrapy、Playwright、aiohttp 等) 编写脚本, 采集社交 媒体 、电商 、招聘等业务数据, 处理动态渲染与反爬策略。
3. 前端结构解析 。结合 HTML / CSS / JavaScript 分析⻚⾯ DOM ,优化组件定位和提取逻 辑, 提升解析准确率。
4. ⾃动化采集与流程优化 。运⽤ Selenium 、Playwright 、Appium 等框架 ,在 Web 、APP、 PC 端实现⾃动化抓取;探索 RPA ⽅案, 提升采集效率。
5. 数据⼊库与质量监控 。与数据运营 、算法团队协作, 完成数据清洗 、⼊库及质量监控, 输 出结构化数据集。
任职要求
1. ⼤专及以上学历, 计算机 、软件⼯程 、⽹络⼯程等相关专业优先。
2. 2 年以上⼤规模数据爬⾍开发经验 ,有分布式或异步爬⾍项⽬实战;具备前端 ⻚⾯解析 、逆向或反爬绕过经验者优先。
3. 专业能⼒
○ Python:精通 Python 及 requests、Scrapy、aiohttp、Playwright 等框架;
○ 前端技术:熟练掌握 HTML 、CSS 、JavaScript, 能独⽴完成⻚⾯解析;
○ 反爬与性能:熟悉 IP 代理 、验证码识别 、浏览器指纹 、并发调度等技术;
4. ⾃动化 / RPA 。具备 Web / APP / PC 端⾃动化脚本编写经验;有 UiPath 、Automation Anywhere 等 RPA 平台实践经历者优先。
5. ⼯程化能⼒ 。了解 Docker 、Kubernetes 、消息队列 、缓存等分布式架构与部署⽅案优 先。
6. 合规与安全 。具备较好的数据合规 ,有⻛险识别与应对经验优先。
7. 沟通协作 。逻辑清晰 、协作能⼒强, 可制定项⽬计划并推动按时⾼质量交付。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕