「北京海淀区数据爬虫工程师招聘」_2026年上海微创软件股份有限公司招聘-智联招聘

职位详情

数据爬虫工程师

2-4万

上海微创软件股份有限公司

北京

3-5年

大专

12-18

工作地址

东升大厦

职位描述

职位描述
1、数据战略与挖掘：深入理解业务需求，调研、识别并评估可用于3D AI训练的高价值数据源（如公开3D模型库、设计社区、电商平台、视频等）。
2、系统设计与开发：设计、开发并维护稳定、高效、可扩展的分布式数据爬虫系统，能够应对各种复杂的反爬策略和海量数据抓取任务。
3、数据处理与清洗：对抓取的多模态数据进行清洗、去重、标注、格式化，构建高质量的3D训练数据集，确保数据的合规性与可用性。
4、技术攻坚：解决爬取过程中遇到的各种技术挑战，包括但不限于动态渲染（JS）、验证码识别、IP封禁、API限制等。
5、质量与效率：建立数据质量监控体系，持续优化爬虫策略和系统架构，提升数据采集的覆盖度、新鲜度和效率。
6、合规与伦理：严格遵守Robots协议、数据安全法与版权法规，确保所有数据采集活动的合法合规性。
任职要求：
1、精通 Python 编程语言，熟练掌握 Scrapy, Requests, BeautifulSoup, Selenium/Playwright 等主流爬虫框架和工具。
2、深刻理解HTTP/HTTPS协议，熟悉Web前端技术（HTML, CSS, JavaScript）。
3、具备处理复杂反爬机制（如IP速率限制、用户行为检测、加密参数等）的实战经验。
4、熟悉至少一种数据库（如 MySQL, PostgreSQL, MongoDB, Redis）。
5、具备优秀的数据清洗和处理能力，熟悉 Pandas, NumPy 等工具。
6、了解分布式爬虫原理，有使用 Scrapy-Redis, Celery 等工具的经验。

以担保或任何理由索取财物，扣押证照，均涉嫌违法，请提高警惕