岗位职责:
1、负责外部数据采集需求,完成采集站点分析,数据采集,数据结构化,数据质量保障以及外部数据维护工作。数据从接入到最后业务使用都需要大量人力投入开发运维。
2、负责databee采集工具日常技术支持,问题排查、答疑,使用文档便编写及维护。
3、外部数据去重整合、异常数据处理/数据评测/数据订正、NER/NED数据预处理等
岗位要求:
1、熟悉java/python有大于2年的爬虫开发经验
2、熟悉webmagic等开源爬虫框架 或 熟悉常用爬虫框架平台
3、能够熟练的开发爬取日常网页/APP内容