岗位职责:
1.参与设计和开发高效、稳定的网络爬虫系统,从各种网站和平台抓取数据。
2.使用 Java 和 Python 编写和维护爬虫脚本,处理反爬虫机制,确保数据抓取的准确性和效率。
3.采用包括AI大模型在内的多种方式对抓取的数据进行清洗、整理和存储,并进行初步的分析和处理。
4.与团队成员合作,解决爬虫开发过程中遇到的技术难题。
5.关注爬虫技术的最新发展,并积极学习和应用新技术。
任职要求:
1.2-3年爬虫相关工作经验,计算机科学、软件工程或相关专业专科及以上学历。
2.熟练掌握 Java 和 Python 编程语言,具备良好的代码风格和文档习惯。
3.熟悉常用的爬虫框架和库,例如 Scrapy、Selenium 等。
4.了解 HTTP协议、HTML、CSS、JavaScript 等前端技术,能够分析网页结构并提取所需数据。
5.熟悉常见的反爬机制,并能够使用相应的策略进行应对。
6.熟悉使用 MySQL、Elasticsearch,了解 Linux 操作系统和常用命令。
7.具备良好的问题分析和解决能力、良好的沟通能力和团队合作精神,能够独立完成爬虫任务,能够与团队成员有效协作。
8.工作踏实、认真、负责,执行力强,能够在快节奏和高压力环境下保持高效工作,确保项目按时交付。
9.有分布式爬虫、数据清洗、数据分析等相关经验者优先。
10.有AI大模型数据清洗经验者优先。