1.4-2万
上海通用识别技术研究所-西门
岗位职责:
1、负责设计和开发高效、稳定的网络爬虫系统,从各种数据源中抓取数据;
2、对抓取到的数据进行清洗、去重、转换等处理,确保数据的质量和准确性;
3、解决爬虫过程中遇到的各种技术问题,如反爬机制、IP封锁、验证码识别等;
4、持续优化爬虫策略和算法,提高数据抓取的效率和覆盖率;
5、与数据分析师、开发团队等合作,将抓取到的数据集成到公司的数据平台或应用中。
任职要求:
1、计算机、软件工程等统招本科及以上学历,具有2年及以上工作经验;
2、熟练掌握至少一门编程语言 Python、Java 等,精通至少一种常用的爬虫框架和工具,如 Scrapy、BeautifulSoup、Selenium(Python)、OkHttp;能够独立承担爬虫工作
3、熟悉 HTTP 协议、HTML、CSS、JavaScript 等,能够分析网页结构和数据提取逻辑
4、熟悉数据库操作,如 MySQL、MongoDB等;
5、熟悉分布式爬虫架构和技术,能够应对各种复杂的反爬机制;有大型分布式爬虫系统(全网和垂直抓取)的开发经验优先;
6、对数据敏感,有数据分析和挖掘经验者优先;
7、熟悉主流爬取技术,如协议破解、模拟点击、AST解混淆、app逆向等,能够解决封账号、封IP、验证码等问题者优先
8、具有良好的专业素养,有较好的学习能力,有分析问题、解决问题的能力,有较好的领悟力和执行力;
9、工作积极互动,责任心强,服从安排,身心健康,有一定的抗压能力;
10、善于沟通,具备较好的团队合作精神。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕