岗位职责:
1、负责设计和开发高效、稳定的网络爬虫系统,从各种数据源中抓取数据;
2、对抓取到的数据进行清洗、去重、转换等处理,确保数据的质量和准确性;
3、解决爬虫过程中遇到的各种技术问题,如反爬机制、IP封锁、验证码识别等;
4、持续优化爬虫策略和算法,提高数据抓取的效率和覆盖率;
5、与数据分析师、开发团队等合作,将抓取到的数据集成到公司的数据平台或应用中。
任职要求:
1、计算机、软件工程等统招本科及以上学历,2026年应届生或有相关开发经验;
2、熟练掌握 Python、Java 等至少一种编程语言,熟悉常用的爬虫框架和工具,如 Requests、BeautifulSoup、Selenium(Python)/Jsoup、OkHttp、Selenium(Java) 等;
3、熟悉 HTTP 协议、HTML、CSS、JavaScript 等 web 技术,能够分析网页结构和数据提取逻辑;
4、具备较强的问题解决能力和创新思维,能够应对各种复杂的反爬机制;
5、熟悉数据库操作,如 MySQL、MongoDB 等;
6、有良好的代码规范和文档编写习惯,具备团队合作精神和沟通能力;
7、了解分布式爬虫架构和技术,有大规模数据抓取经验者优先;对数据敏感,有AI数据爬取、数据分析、挖掘经验者优先。