职位描述
岗位职责
1. 数据抓取实现:根据业务需求,负责海外电商、社交、新闻类网站的爬虫开发与日常维护。
2. 动态渲染处理:运用自动化工具抓取 JS 渲染的动态页面,确保数据的完整性。
3. 多媒体采集:负责图片、音视频资源的下载及基础分类存储,处理简单的格式兼容性问题。
4. 反爬应对:处理常见的验证码、IP 频率限制及简单的混淆加密逻辑。
5. 数据清洗:对抓取到的非结构化数据进行清洗、去重,并导入数据库。
任职要求
1. 工作经验1-3年,学历不限
2. 核心技术基础
编程语言:熟练掌握 Python,代码风格规范,熟悉多线程、多进程及 asyncio 异步编程。
爬虫框架:熟练使用 Scrapy、Requests 或 Playwright 等主流爬虫框架及库。
数据解析:精通 JSONPath、XPath、BeautifulSoup 或正则提取,能高效处理复杂的 HTML 结构。
3. 网页技术与模拟
自动化工具:熟悉 Playwright 或 Selenium,能够模拟人工点击、滚动、翻页等交互操作。
抓包分析:熟练使用 Chrome DevTools、Fiddler 或 Charles 进行网络请求分析,定位关键数据接口。
基础逆向:了解常见的 JS 加密逻辑(如 MD5、Base64、简单的时间戳加密),能处理基础的 Cookie 校验。
专项与加分项
● 多媒体处理:了解 FFmpeg 或 Pillow,能完成基础的视频转码、图片裁剪或封面抓取。
● 海外环境:有海外代理(如 Bright Data, Oxylabs)使用经验,了解如何在海外服务器上部署爬虫。
● 存储能力:熟悉 MongoDB、Redis 或 MySQL,能编写高效的增量抓取逻辑
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕