「合肥蜀山区急招爬虫工程师，双休，团队氛围好招聘」

职位详情

急招爬虫工程师，双休，团队氛围好

6000-8000元

新宇智慧

合肥

1-3年

不限

03-04

工作地址

合肥创新创业园0

职位描述

岗位职责
1. 数据抓取实现：根据业务需求，负责海外电商、社交、新闻类网站的爬虫开发与日常维护。
2. 动态渲染处理：运用自动化工具抓取 JS 渲染的动态页面，确保数据的完整性。
3. 多媒体采集：负责图片、音视频资源的下载及基础分类存储，处理简单的格式兼容性问题。
4. 反爬应对：处理常见的验证码、IP 频率限制及简单的混淆加密逻辑。
5. 数据清洗：对抓取到的非结构化数据进行清洗、去重，并导入数据库。
任职要求
1. 工作经验1-3年，学历不限
2. 核心技术基础
编程语言：熟练掌握 Python，代码风格规范，熟悉多线程、多进程及 asyncio 异步编程。
爬虫框架：熟练使用 Scrapy、Requests 或 Playwright 等主流爬虫框架及库。
数据解析：精通 JSONPath、XPath、BeautifulSoup 或正则提取，能高效处理复杂的 HTML 结构。
3. 网页技术与模拟
自动化工具：熟悉 Playwright 或 Selenium，能够模拟人工点击、滚动、翻页等交互操作。
抓包分析：熟练使用 Chrome DevTools、Fiddler 或 Charles 进行网络请求分析，定位关键数据接口。
基础逆向：了解常见的 JS 加密逻辑（如 MD5、Base64、简单的时间戳加密），能处理基础的 Cookie 校验。
专项与加分项
● 多媒体处理：了解 FFmpeg 或 Pillow，能完成基础的视频转码、图片裁剪或封面抓取。
● 海外环境：有海外代理（如 Bright Data, Oxylabs）使用经验，了解如何在海外服务器上部署爬虫。
● 存储能力：熟悉 MongoDB、Redis 或 MySQL，能编写高效的增量抓取逻辑

以担保或任何理由索取财物，扣押证照，均涉嫌违法，请提高警惕