岗位职责:
 1. 负责爬虫项目的需求分析与方案设计,针对各类目标网站(如公开数据平台、行业资讯站点等)制定高效、合规的爬取策略 
2. 独立完成爬虫程序的开发、调试与优化,熟练运用requests、Scrapy、BeautifulSoup、Selenium等工具,解决反爬机制(如IP封锁、验证码、动态加载)问题 
3. 负责爬取数据的清洗、解析、存储(如MySQL、MongoDB)及质量校验,确保数据的准确性、完整性和时效性 
4. 维护现有爬虫系统的稳定运行,监控数据抓取状态,及时处理异常情况(如网站结构变更、爬取效率下降)并迭代优化 
5. 与数据分析师、产品经理等协作,根据业务需求输出标准化数据成果,支撑业务决策与产品迭代。
 岗位要求:
 1. 本科及以上学历,计算机、软件工程、数据科学等相关专业优先,3-5年Python爬虫开发经验,有大规模分布式爬虫、高并发数据抓取项目经验者优先 
2. 精通Python语言基础,熟练掌握爬虫核心库(requests、Scrapy、lxml、PyQuery)及异步爬虫技术(aiohttp、asyncio) 
3. 熟悉常见反爬手段(UA伪装、Cookie池、IP代理池、滑块验证识别),能独立设计应对方案 
4. 掌握HTML/CSS/JavaScript解析,能处理动态渲染页面(如Selenium、Playwright、Pyppeteer) 
5. 熟练使用至少一种数据库(MySQL/MongoDB/Redis),具备数据清洗、格式转换及批量处理能力