职位详情
爬虫工程师 (MJ000282)
1.5-2万
江苏天马网络科技集团有限公司
南京
不限
本科
07-28
工作地址

天马运动平台(江苏天马科技集团有限公司)33栋18层

职位描述

岗位职责:

1,负责设计和开发分布式网络爬虫系统,进行多平台信息的抓取和分析工作

2,负责网页搜索的页面内容提取,搜索领域下的滤重(simhash/minhash)、聚类、反垃圾、页面分析、标签、分类器(贝叶斯/Bayes/LR/SVM)、数据挖掘等工作,提升平台的抓取效率

3,参与爬虫核心算法和策略优化,熟悉采集系统的调度策略

4,实时监控爬虫的进度和警报反馈

5,独立负责项目的,数据获取,功能设计、开发和产品迭代


任职资格:

1,大学本科学历以上,3年以上爬虫相关项目经验

2,有扎实的算法和数据结构能力,精通爬虫原理,熟悉常见的反爬虫技术,Linux下的 Python / Shell 开发和常用开源爬虫框架如scrapy / pyspider

3,掌握网页抓取原理及技术,了解基于Cookie的登录原理,熟悉基于正则表达式、XPath 等网页信息抽取技术

4,掌握http协议,熟悉html、dom、xpath等常见的数据抽取技术

5,有大规模数据处理、数据挖掘、信息提取等经验者优先

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请