岗位职责:
1、负责公司数据源抓取需求,满足公司对多源数据采集要求;
2、实现大规模数据的抓取、抽取,去重、分类,垃圾过滤,质量识别、解析入库等工作;
3、能独立解决实际数据挖掘过程碰到的各类问题 。
任职要求:
1、本科以上学历,2年以上爬虫开发相关经验,熟练使用Python进行数据爬取;
2、 熟练使用正则表达式、css path、xpath等,能够从结构化的和非结构化的数据中获取信息;
3、 熟悉各种抓取技术,包括代理、PhantomJSselenium、验证码处理;
4、精通一种开源爬框架,如scrapy、webmagic、nutch、heritrix等;
5、熟悉各种反爬虫技术及其应对措施,有分布式爬虫架构经验优先;
6、具有良好的团队协作精神,思维清晰敏捷,逻辑分析能力强;
7、会开车,能接受短期出差。
职位福利:定期体检、五险一金、员工旅游、年终分红