职位描述
岗位职责:
1.对指定的网站进行网页抓取、数据提取、破解反爬策略;
2.负责多平台信息抽取、数据清洗、入库、服务化等研发和优化工作;
3.参与开发和设计分布式网络爬虫系统,进行信息的抓取和分析工作;
4.研究优化爬虫算法,提升爬虫系统的稳定性、可扩展性;
5.独立解决实际开发过程中碰到的各类产品数据需求和接口问
题。
任职要求:
1.本科及以上学历,计算机相关专业,3年以上相关工作经验;
2.精通网页抓取原理及技术,精通正则表达式,熟练从结构化和非结构化的数据中获取信息;
3.精通JAVA/PYTHON语言,熟悉数据库性能优化与常见缓存技术与策略;
4.精通一种开源爬虫框架,熟悉反爬虫.验证码识别技术者优先;
5.了解互联网的常用技术点,通用技术解决方案,深入源码或者开源committer者优先;
6.具备优秀的逻辑思维能力,对解决挑战性问题充满热情,善于分析问题/解决问题;
7.熟悉APP脱壳、APP逆向反编译、JS解密逆向等相关内容者优先。
加分项:
1)有App端数据采集经验
2)有部署Airflow或DolphinScheduler或xxl-job等开源调度平台经验
3)有浏览器插件采集数据经验
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕