职位详情
Python 高级开发工程师(偏爬虫方向)
2-2.8万
上海福芮柚科技有限公司
上海
5-10年
本科
08-28
工作地址

虹桥世界中心E1幢301室

职位描述
一、岗位职责
1.爬虫架构与核心开发
基于 Python 语言主导高性能爬虫系统的架构设计与核心模块开发,充分发挥 Python 在爬虫领域的优势,确保系统能高效、稳定地应对大规模数据采集任务。
深度优化 Python 爬虫框架(如 Scrapy)的性能,包括但不限于对调度器、下载器、管道等核心组件的定制化开发,提升爬虫的并发处理能力和数据抓取效率。
运用 Python 相关技术解决爬虫开发中的复杂问题,如利用异步编程(asyncio、aiohttp)提升网络请求效率,借助多线程、多进程处理 CPU 密集型任务等。
2.反爬对抗与技术突破
运用 Python 深入研究各类网站和 APP 的反爬机制,针对 JS 混淆、动态渲染、验证码等反爬手段,开发相应的 Python 解决方案,如使用 PyExecJS 执行 JS 代码、Selenium 结合 Python 进行动态页面渲染处理等。
基于 Python 构建反反爬策略体系,实现 IP 代理池的动态管理、请求头的智能伪装、Cookie 的自动处理等功能,保障爬虫的持续稳定运行。
3.数据处理与系统优化
使用 Python 对爬取到的海量数据进行清洗、转换、存储等处理,熟练运用Pandas、NumPy 等数据处理库提升数据处理效率和质量。
负责 Python 爬虫系统的性能监控与优化,通过日志分析、性能测试等手段,定位系统瓶颈并进行针对性优化,降低资源消耗,提高系统的可靠性。
与团队协作,将 Python 爬虫系统与数据存储、数据分析等平台进行无缝对接,实现数据的全流程自动化处理。
4.团队协作与技术沉淀
沉淀 Python 爬虫开发相关的技术文档、工具类库和解决方案,推动团队技术积累和复用。
二、任职要求
1.Python 技术深度
精通 Python 语言特性及高级用法,有 5 年以上 Python 开发经验,其中至少 3 年专注于爬虫方向开发,能熟练运用 Python 解决爬虫开发中的复杂技术问题。
深入理解 Python 爬虫相关框架(Scrapy、BeautifulSoup、Requests 等)的底层原理,具备丰富的框架二次开发经验,能根据业务需求定制化框架功能。
熟练掌握 Python 异步编程(asyncio、aiohttp、tornado 等)、多线程、多进程等并发编程技术,并在爬虫项目中有成功的大规模应用案例。
熟悉 Python 与其他技术的集成应用,如 Python 与数据库(MySQL、MongoDB、Redis)的高效交互,Python 与 Docker、Kubernetes 等容器化技术的结合使用。
2.爬虫专业能力
具备丰富的 Web 端和 APP 端爬虫开发经验,熟悉各类网页解析技术(XPath、CSS 选择器、正则表达式等),能高效提取网页中的目标数据。
深入了解常见的反爬机制(如 IP 封锁、UA 验证、Cookie 验证、验证码、动态加载等),并能运用 Python 技术制定有效的应对策略。
具备一定的逆向工程能力,能使用 Python 相关工具(如 Frida、Unidbg 等)对 APP 进行逆向分析,解析加密协议和数据。
3.其他技能要求
熟悉 Linux 操作系统,能熟练使用 Python 脚本进行系统运维和自动化部署,具备良好的问题排查和解决能力。
具备良好的代码规范和文档编写习惯,能写出高质量、可维护的 Python 代码。
拥有较强的学习能力和创新精神,能快速掌握新技术并应用到实际工作中,应对不断变化的爬虫技术挑战。
加分项
1.有大型分布式 Python 爬虫系统设计与开发经验,能处理日均千万级以上数据采集任务优先
2.有AIGC经验,有RAG,Langchain,dify等AI框架开发经验优先

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请