职位详情
数据爬取和治理工程师
1.5-2.5万
上海张江数学研究院
上海
3-5年
本科
04-22
工作地址

张江国创中心1期

职位描述

岗位职责:

1、负责全球公开新闻资讯站点、论坛、社交等公开数据的智能化采集与获取,应对大规模文本、图像、视频数据的采集、抽取,去重、分类,垃圾过滤,质量识别、解析入库等工作;

2、负责各种开源网络数据的基本挖掘分析,参与数据服务产品研发;

3、负责爬虫技术与反爬技术研究,快速响应业务需求。

任职要求:

1、具有3年以上实际网络爬虫或分布式数据采集开发工作经验;

2、精通熟悉爬虫原理及优化技术,熟悉主流爬虫框架使用;熟悉常见的反爬机制及应对策略,包括但不限于使用代理IP,验证码智能识别,动态JS数据解析等;

3、熟悉各类应用网络协议知识,基本网络协议分析,熟悉基于Phantomjs、Headless、Selenium等无界面浏览器自动化交互采集技术;

4、对数据结构和算法设计有较为深刻的理解;

5、具有较强的编程能力,具备良好的编程习惯,能够编写高质量技术文档;

6、具有构建分布式爬虫系统的经验,具有海量高并发网页爬取项目经验优先;

7、具备信息检索、Web挖掘等搜索引擎相关知识,有从事网络爬虫、网页去重、网页信息抽取、网页分类的中任一种程序开发经验者优先;

8、对自然语言处理技术熟悉者优先;具备机器学习、数据挖掘经验或深度学习基础经验者优先。

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请