职位描述
精通 HTTP 协议、熟悉请求头伪装、Cookie/Token 机制及其生命周期;
熟悉常见网页结构解析方式(XPath、正则、CSS Selector);
掌握常用 Python 爬虫框架,如 Scrapy、Playwright、Selenium、Requests 等;
能应对强反爬场景,如验证码识别、JS加密解密、滑块模拟、人机识别等;
熟悉异步编程(asyncio/aiohttp)、多线程、多进程性能优化技术;
熟练使用数据库进行数据存储(如 MySQL、MongoDB、ClickHouse),具备数据清洗处理能力;
能够理解缓存策略、限流机制,有反爬规则规避经验
熟悉使用代理 IP 池(如 Luminati、快代理)并实现自动切换
有移动端(APP)数据抓取经验,能进行 APP 协议分析(抓包、逆向)
有旅游、机票、酒店搜索引擎相关从业经验者优先
有分布式爬虫、任务队列、数据可视化、数据服务 API 开发经验者优先
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕