职位描述
工作职责:
-设计、开发和维护高性能、高可用的网络爬虫系统,用于大规模数据采集;
-分析目标网站结构,制定合理的抓取策略,处理反爬机制(如验证码、IP封禁、动态渲染等);
-对采集的数据进行清洗、去重、结构化处理,并确保数据质量与完整性;
-监控爬虫系统的运行状态,及时处理异常、优化性能与稳定性;
-负责京东/天猫/拼多多/抖音/快手等数据BI可视化工作,支持业务对数据的需求;
-与数据团队协作紧密协作,实现数据产品快速迭代;
职责要求:
-熟练掌握 Python,熟悉常用爬虫框架(如 Scrapy、Requests、Selenium、Puppeteer、BeautifulSoup等);
-熟悉常见反爬机制及应对策略(如账号/IP封禁、验证码、js混淆加密、数据混淆等);
-熟悉 HTTP/HTTPS 协议、TCP/IP 网络基础,了解常见 Web 技术(HTML/CSS/JavaScript、AJAX、WebSocket 等);
-掌握数据库操作(MySQL、Doris 等),具备数据存储与处理能力;
-具有良好的学习能力、分析和解决问题的能力和强烈的进取心;
-具备良好的沟通能力和团队合作精神
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕