「上海静安区 python爬虫工程师(驻场短期周期2个月线上面试）招聘」_2025年上海信息人才服务有限公司招聘-智联招聘

职位详情

python爬虫工程师(驻场短期周期2个月线上面试）

1.7-2.1万

上海信息人才服务有限公司

上海

5-10年

大专

09-24

工作地址

上海随申行智慧交通科技有限公司1

职位描述

一、岗位概述

作为公司数据生态体系的核心构建者，负责从各类外部数据源（尤其是政府公开信息平台）中高效、稳定、合规地采集与接入数据。需要综合利用爬虫技术、API接口对接等多种方式，完成数据的提取、清洗与集成，为公司的数据分析和业务应用提供坚实、高质量的数据基石。

二、岗位职责

1. 数据采集开发与实施：独立负责设计、开发和维护数据采集脚本、工具及系统，从网站、API、数据库等多种外部渠道可靠地获取所需数据。

2. 反爬策略分析与应对：能够分析并应对目标网站的反爬虫机制（如IP限制、验证码等），设计并实施相应的解决方案（如代理IP池、请求调度、模拟登录等），确保采集任务的稳定性和高效性。

3. 数据清洗与处理：对采集到的原始数据进行清洗、去重、校验和格式化转换等处理，确保数据的准确性、一致性和可用性，为下游数据应用提供保障。

4. 系统监控与运维保障：建立监控体系，持续跟踪数据采集任务的运行状态与健康状况，能够快速定位、排查并解决链路中断、数据延迟或质量异常等故障，保障数据服务的SLA。

5. 架构优化与性能提升：参与设计和优化高可用、可扩展的数据采集系统架构，持续提升采集效率，降低延迟与资源消耗，应对大规模数据采集场景。

6. 合规性与安全管理：严格遵守《数据安全法》、《网络安全法》及相关法律法规，遵循Robots协议，在所有数据采集活动中贯彻合规与安全第一的原则，防范法律风险。

三、任职要求1. 必备条件：

l 教育背景：计算机科学、信息技术、数据科学或相关专业大专及以上学历。

l 工作经验：具备3年及以上数据采集、爬虫开发或数据接入相关工作经验。有政务数据采集经验者优先。

l 核心技术能力：

¡ 编程语言：精通 Python 及相关生态库（如Scrapy, Requests, BeautifulSoup, Pandas, Selenium/Playwright）。

¡ 爬虫技术：深刻理解Web前端技术（HTML/JS/CSS）、HTTP/HTTPS协议、Restful API设计原则，能熟练使用浏览器开发者工具进行调试。

¡ 数据存储与处理：熟练使用 SQL，具备至少一种数据库（如MySQL, PostgreSQL, MongoDB, Doris）的操作和优化经验。了解分布式计算框架（如Spark）者更佳。

¡ 系统与部署：熟悉Linux操作系统及常用命令，具备脚本编写和服务器环境部署能力。

l 合规意识：具备强烈的数据安全与隐私保护意识，了解国内外相关数据法规。

2. 优先考虑条件：

l 有基于Scrapy-Redis/Celery等的分布式爬虫系统开发与调优经验。

l 熟悉实时/离线数据接入工具与模式，如Kafka、Flink、Sqoop、DataX等。

l 具备处理复杂动态网页渲染、验证码识别或应用OCR/NLP技术解析非结构化数据的经验。

l 熟悉容器化技术（Docker/K8s）及云计算平台（如阿里云、AWS）的相关服务。

l 具备良好的沟通能力、团队协作精神和主动解决问题的能力。

l 持有华为HCIP-Big Data、阿里云ACP（大数据方向）等行业权威认证者优先。

以担保或任何理由索取财物，扣押证照，均涉嫌违法，请提高警惕

上海信息人才服务有限公司

人力资源服务

100-299人 | 国企

为您推荐更多相似职位

爬虫

1.5-1.8万

上海本科

1.2-1.3万

上海本科

1.9-2.2万

上海大专

python爬虫工程师(驻场短期周期2个月线上面试）

1.7-2.1万

上海大专

1.4-1.6万

上海本科

1.6-2万

上海大专

周边城市

立即申请

工作地址

职位描述

职位福利

上海信息人才服务有限公司