工作职责:
1、负责全球公开新闻资讯站点、论坛、社交等公开数据的智能化采集与获取,应对大规模文本、图像、视频数据的采集、抽取,去重、分类,垃圾过滤,质量识别、解析入库等工作;
2、负责各种开源网络数据的基本挖掘分析,参与数据服务产品研发;
3、负责爬虫技术与反爬技术研究,快速响应业务需求;
4、优秀的技术文档意识和维护能力。
任职要求:
1、精通熟悉爬虫原理及优化技术,熟悉主流爬虫框架使用;熟悉常见的反爬机制及应对策略,包括但不限于使用代理IP,验证码智能识别,动态JS数据解析等;
2、熟悉各类应用网络协议知识,基本网络协议分析,熟悉基于Phantomjs、Headless、Selenium等无界面浏览器自动化交互采集技术;
3、对数据结构和算法设计有较为深刻的理解;
4、有较强的编程能力,具备良好的编程习惯,能够编写高质量技术文档。