职位详情
python爬虫工程师(驻场短期 周期2个月 线上面试)
1.7-2.1万
上海信息人才服务有限公司
上海
5-10年
大专
09-24
工作地址

上海随申行智慧交通科技有限公司1

职位描述
一、 岗位概述

作为公司数据生态体系的核心构建者,负责从各类外部数据源(尤其是政府公开信息平台)中高效、稳定、合规地采集与接入数据。需要综合利用爬虫技术、API接口对接等多种方式,完成数据的提取、清洗与集成,为公司的数据分析和业务应用提供坚实、高质量的数据基石。

二、 岗位职责

1. 数据采集开发与实施: 独立负责设计、开发和维护数据采集脚本、工具及系统,从网站、API、数据库等多种外部渠道可靠地获取所需数据。

2. 反爬策略分析与应对: 能够分析并应对目标网站的反爬虫机制(如IP限制、验证码等),设计并实施相应的解决方案(如代理IP池、请求调度、模拟登录等),确保采集任务的稳定性和高效性。

3. 数据清洗与处理: 对采集到的原始数据进行清洗、去重、校验和格式化转换等处理,确保数据的准确性、一致性和可用性,为下游数据应用提供保障。

4. 系统监控与运维保障: 建立监控体系,持续跟踪数据采集任务的运行状态与健康状况,能够快速定位、排查并解决链路中断、数据延迟或质量异常等故障,保障数据服务的SLA。

5. 架构优化与性能提升: 参与设计和优化高可用、可扩展的数据采集系统架构,持续提升采集效率,降低延迟与资源消耗,应对大规模数据采集场景。

6. 合规性与安全管理: 严格遵守《数据安全法》、《网络安全法》及相关法律法规,遵循Robots协议,在所有数据采集活动中贯彻合规与安全第一的原则,防范法律风险。

三、 任职要求1. 必备条件:

l 教育背景: 计算机科学、信息技术、数据科学或相关专业大专及以上学历。

l 工作经验: 具备3年及以上数据采集、爬虫开发或数据接入相关工作经验。有政务数据采集经验者优先。

l 核心技术能力:

¡ 编程语言: 精通 Python 及相关生态库(如Scrapy, Requests, BeautifulSoup, Pandas, Selenium/Playwright)。

¡ 爬虫技术: 深刻理解Web前端技术(HTML/JS/CSS)、HTTP/HTTPS协议、Restful API设计原则,能熟练使用浏览器开发者工具进行调试。

¡ 数据存储与处理: 熟练使用 SQL,具备至少一种数据库(如MySQL, PostgreSQL, MongoDB, Doris)的操作和优化经验。了解分布式计算框架(如Spark)者更佳。

¡ 系统与部署: 熟悉Linux操作系统及常用命令,具备脚本编写和服务器环境部署能力。

l 合规意识: 具备强烈的数据安全与隐私保护意识,了解国内外相关数据法规。

2. 优先考虑条件:

l 有基于Scrapy-Redis/Celery等的分布式爬虫系统开发与调优经验。

l 熟悉实时/离线数据接入工具与模式,如Kafka、Flink、Sqoop、DataX等。

l 具备处理复杂动态网页渲染、验证码识别或应用OCR/NLP技术解析非结构化数据的经验。

l 熟悉容器化技术(Docker/K8s)及云计算平台(如阿里云、AWS)的相关服务。

l 具备良好的沟通能力、团队协作精神和主动解决问题的能力。

l 持有华为HCIP-Big Data、阿里云ACP(大数据方向)等行业权威认证者优先。

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请