职位描述
岗位职责:
1.负责网页数据的抓取、解析、清洗及存储,支持业务部门的数据需求。
2.使用Requests、Scrapy、Selenium等工具完成目标网站的数据采集任务。
3.分析目标网站的反爬机制,设计合理的爬取策略(如动态IP、User-Agent
轮换、验证码破解等)。
4.优化爬虫性能,提升数据抓取效率,并确保数据准确性。
5.配合团队完成数据清洗、去重、格式化等工作,并存储至MySQL、
MongoDB、Redis等数据库。
6.协助维护现有爬虫系统,修复BUG,优化代码结构。
任职要求:
1.计算机相关专业(如计算机科学与技术、软件工程、数据科学等),本科。
2.熟悉Python编程,了解多线程、协程、异步IO等优化手段。
3.掌握基础爬虫技术:
熟练使用Requests、BeautifulSoup、XPath、正则表达式解析网
页数据。
熟悉Selenium/Playwright等模拟浏览器行为,处理动态渲染页面。
4.了解Scrapy框架,能独立搭建爬虫项目,并优化爬取逻辑。
5.熟悉数据库操作,至少掌握MySQL、Redis、MongoDB中的一种。
6.具备基本的数据清洗能力,能使用Pandas进行数据预处理。
加分项
1.了解JS逆向,能分析常见加密参数(如sign、token)。
2.使用过Fiddler、mitmproxy、Charles等抓包工具分析API请求。
3.了解分布式爬虫(Scrapy-Redis),有高并发爬取经验。
4.熟悉验证码识别(如ddddocr、超级鹰等打码平台)。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕