职位描述
工作职责:
1、负责数据的采集:开发高效、稳定的网络爬虫,完成目标网站结构化与非结构化数据的抓取任务。
2、爬虫架构设计与优化:根据业务需求设计、开发和维护爬虫系统架构,持续提升抓取效率与系统稳定性。
3、反爬机制处理:研究并应对网站的反爬措施,如验证码、IP封锁、JS混淆、动态加载等。
4、数据清洗与存储:对采集的数据进行清洗、去重、结构化,并存储至数据库或分布式存储系统。
5、定期维护与升级:定期分析目标网站变化,及时优化和升级爬虫策略与代码,保证数据采集的持续可用性,稳定交付高质量数据。
6、跨团队协作:与产品、开发等团队合作,理解业务需求,支撑上下游数据流转。
任职资格:
1、本科及以上学历,计算机相关专业优先。
2、精通Python、Java、Go等至少一门编程语言,熟悉常用爬虫框架及多线程/多进程并发编程。
3、熟悉HTTP/HTTPS协议及常见反爬机制,具备代理池、验证码识别、JS动态渲染、APP逆向等实战经验。
4、掌握数据解析与清洗技术(如正则、XPath等),熟悉MySQL、MongoDB、Redis等中间件,有大数据处理经验者优先。
5、具备良好的编码规范、文档能力,有分布式爬虫或高并发抓取经验者优先,能熟练使用AI工具辅助开发。
6、学习能力强,具备良好的沟通协作及问题解决能力,对新技术有持续热情。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕