1、使用 Python 及爬虫工具,如 Scrapy、Selenium、Requests 等,高效爬取目标电商平台的数据,包括亚马逊、eBay、Shopee、独立站等的商品数据、竞品信息、用户评论等。
2、设计反爬策略绕过机制,例如通过动态代理 IP 池调度算法、验证码识别技术等,确保数据采集的稳定性和合规性。
3、对原始数据进行清洗、去重、结构化处理,比如去除重复的商品信息,将用户评论进行分类整理,生成高质量数据集,以便后续分析和使用。
4、负责日常的项目维护、功能迭代及优化,确保爬虫系统的稳定运行。熟悉采集系统的调度策略,提高数据采集的效率和质量。