备注:基于业务发展需要,公司现行工作时间为:上午8:30--下午18:00,中午休息两小时,单休状态(国家法定假日正常休息),介意勿投,谢谢理解
岗位职责
1、电商平台数据爬取
(1)负责设计分布式爬虫系统,采集抖、快、拼等电商平台的商品信息(订单信息、店铺信息、评论等);
(2)应对反爬机制(IP封锁、验证码、动态加载),使用代理IP、Selenium模拟浏览器等技术突破限制;
(3)优化爬虫性能,包括并行化爬取、数据去重、异步IO等技术提升效率
数据清洗与存储:通过正则表达式/XPath解析数据,存MySQL/MongoDB等数据库;
2、参与自动化系统(如订货单生成、报表统计),结合爬虫与业务需求提升效率;
3、维护爬虫服务器,监控任务调度与报警反馈,确保系统稳定性
4、具备数据挖掘经验,能构建用户行为分析或个性化推荐系统优先考虑
任职要求
1、技术能力
(1)精通Python开发,熟悉Scrapy、Requests、Selenium等爬虫框架;
(2)掌握HTML/CSS/JS解析技术(XPath、正则表达式、Beautiful Soup);
(3)熟悉数据库优化(MySQL、MongoDB)及分布式存储原理;
(4)了解HTTP协议、抓包工具(Fiddler、Charles)及逆向工程(JS解密);
2、经验要求
(1)5年以上Python开发经验,2年以上数据爬取实战经验
3、软性要求
(1)计算机相关专业本科及以上学历
(2)良好的编码规范,能独立解决问题并优化系统性能
(3)适应高强度工作,具备团队协作与跨部门沟通能力