职位描述
1. 负责基于大学官网所需数据的爬取、采集、调优、排错等研发工作;
2. 负责对爬取数据进行的清洗、整理、修复工作,形成高质量的采集输出;
3. 针对需要的数据,寻找网站内可用的接口;
4. 开发结构化数据抽取和解析的可视化平台,提升数据抓取解析开发运营效率;
任职要求:
1. 熟悉python自动化测试框架,如playwright、DrissionPage等。
2. 熟练掌握Python编程,熟悉kafka、mongodb、mysql、redis等。
3. 熟悉分布式,多线程,至少熟悉一种爬虫框架(如Scrapy、Feapdr等)。
4. 深入理解爬虫和反爬技术,精通http底层协议,熟悉各类验证码破解、动态网页抓取如文本混淆反爬虫等等技术
5. 有良好的责任心、沟通能力、学习能力、团队协作精神。
6. 能够对复杂数据进行高效提取和清洗,具备良好的分析能力和解决问题的能力,能够应对复杂的反爬挑战。
7. 对主流爬虫架构有深入研究,具有成熟爬虫工具的设计及运维经验;
8. 能够处理极验验证码。
9. 要求3年左右行业开发经验。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕