岗位职责:
1. 负责多类型网页数据(动态/静态)的自动化采集、解析及清洗结构化存储,确保高覆盖率与数据准确性,支撑业务复杂需求。
2. 处理诸如速率限制、动态内容和网站更改等挑战。
岗位要求
1. 近期1年以上爬虫经验,熟悉最新爬虫动向;
2. 精通Python及主流框架(Scrapy/PySpider二次开发经验优先),掌握XPath/CSS/正则/BeautifulSoup等解析技术,能熟练处理JSON/XML等结构化数据。
3. 具备基础反爬应对能力,能分析常见加密参数(如Token、Sign)熟悉请求头伪装等反封禁策略。
4. 熟悉Headless浏览器技术(Playwright/Puppeteer/Selenium),能处理大规模JS渲染页面。
5. 了解JS逆向及熟悉常见加密算法(AES、RSA等),有主流平台(如有小红书笔记详情页API逆向或抖音X-Bogus参数破解)经验优先。
6. 了解分布式消息队列(Kafka/RabbitMQ)、高性能存储(ES/HBase/Doris)及数据库(MySQL/MongoDB/Redis)等
7. 熟悉APP逆向工具(JADX/Frida/Xposed),具备Android so库分析或Hook开发经验优先。
8. 注重代码可维护性,有文档编写习惯。
薪酬待遇
1. 缴纳五险一金,双休
2. 固定薪水13薪 + 1薪(部门绩效弹性发放)+2薪(个人贡献弹性发放)
3. 对优秀员工提供期权激励