岗位描述:
1、爬虫系统的设计及开发,负责指定网站的数据爬取,破解反爬策略并按规定入库;
2、对数据进行清洗去重入库,结构化处理,特征提取等数据处理工作;
3、维护和优化已有的爬虫服务,按需求做增量采集,数据监控,拓展数据源;
4、参与网页信息抽取、数据清洗等研发和优化工作;
5、与产品项目部门、运营部门对接工作。
任职要求:
1、计算机或相关专业,本科或以上学历,1年以上爬虫开发经验;
2、熟悉网络爬虫原理,至少1年以上网络爬虫项目开发经验,有大规模分布式爬虫相关经验;
3、熟练使用正则表达式、xpath、beautifulsoup、css path等解析提取数据;
4、熟练使用MongoDB,Mysql数据库;
5、熟悉开源爬虫框架,如scrapy、webmagic、nutch、Abot、DotnetSpide等,擅长反爬虫,验证码破解,代理技术等;
6、具有数据挖掘、自然语言处理、数据处理、大数据分析背景者优先;
7、同时掌握Python与Java者优先。