郑州爬虫岗,办公地点新发展楷林中心(云广大厦)
岗位职责
1、负责蚂蚁金服外部数据采集需求,完成采集站点分析,数据采集,数据结构化,数据质量保障以及外部数据维护工作。数据从接入到最后业务使用都需要大量人力投入开发运维。
2、负责databee采集工具日常技术支持,问题排查、答疑,使用文档便编写及维护。
3、外部数据去重整合、异常数据处理/数据评测/数据订正、NER/NED数据预处理等
岗位要求
● 熟悉java/python,熟悉脚本开发
● 有大于2年的爬虫开发经验
● 熟悉webmagic等开源爬虫框架 或 熟悉常用爬虫框架平台
● 能够熟练的开发爬取日常网页/APP内容