高级爬虫工程师
1.2-2.4万
上海 本科
张江国创中心1期
岗位职责:
1、负责全球公开新闻资讯站点、论坛、社交等公开数据的智能化采集与获取,应对大规模文本、图像、视频数据的采集、抽取,去重、分类,垃圾过滤,质量识别、解析入库等工作;
2、负责各种开源网络数据的基本挖掘分析,参与数据服务产品研发;
3、负责爬虫技术与反爬技术研究,快速响应业务需求。
任职要求:
1、具有3年以上实际网络爬虫或分布式数据采集开发工作经验;
2、精通熟悉爬虫原理及优化技术,熟悉主流爬虫框架使用;熟悉常见的反爬机制及应对策略,包括但不限于使用代理IP,验证码智能识别,动态JS数据解析等;
3、熟悉各类应用网络协议知识,基本网络协议分析,熟悉基于Phantomjs、Headless、Selenium等无界面浏览器自动化交互采集技术;
4、对数据结构和算法设计有较为深刻的理解;
5、具有较强的编程能力,具备良好的编程习惯,能够编写高质量技术文档;
6、具有构建分布式爬虫系统的经验,具有海量高并发网页爬取项目经验优先;
7、具备信息检索、Web挖掘等搜索引擎相关知识,有从事网络爬虫、网页去重、网页信息抽取、网页分类的中任一种程序开发经验者优先;
8、对自然语言处理技术熟悉者优先;具备机器学习、数据挖掘经验或深度学习基础经验者优先。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕