2.5-5万·15薪
中关村大厦北京中关村
工作职责:
1. 负责互联网音频、视频平台的数据采集,包括节目/专辑/视频元数据、评论、播放数据等信息的抓取与结构化整理。
2. 设计并实现稳定高效的音视频爬虫系统,支持大规模、多站点的持续采集与更新。
3. 针对主流音视频平台的反爬机制(登录态校验、频控、滑块验证码、JS 加密、动态接口、加密链接等)进行分析与对抗,持续提升成功率与稳定性。
4. 参与音视频资源解析相关工作,如播放地址/m3u8/DASH 等协议分析、加密参数解析、接口抓包与协议还原(仅用于合法合规场景)。
5. 搭建数据采集监控体系,包含任务调度、失败重试、数据质量监控、告警与日志分析。
6. 持续优化爬虫框架与采集策略,提升抓取效率、降低带宽与存储开销。
7. 与产品、算法、数据、内容运营等团队配合,根据业务需求设计数据采集方案,为推荐、内容分析、风控等场景提供数据支持。
8. 编写和维护相关技术文档、开发规范,参与爬虫平台的架构演进。
任职要求:
1. 本科及以上学历,计算机相关专业优先,具备 1 年及以上互联网爬虫或数据采集相关经验(优秀者可适当放宽)。
2. 精通 Python,熟悉 Scrapy、Requests、Playwright、Selenium 等至少一种爬虫/自动化框架,有实际项目经验。
3. 深刻理解 HTTP/HTTPS 协议和浏览器工作机制,熟练使用抓包工具(如 Charles、Fiddler、Wireshark、Chrome DevTools 等)进行接口分析与问题排查。
4. 有针对主流网站或 APP 的反爬对抗经验,熟悉登录维持、Cookie/Token 管理、代理池、UA 伪装、JS 逆向、加密参数还原等技术手段。
5. 对音视频播放相关协议和格式有一定了解,例如:
* 常见音视频封装格式与编码(MP4、FLV、HLS/m3u8、DASH 等);
* 简单理解 CDN、分片下载、防盗链等机制者优先。
6. 熟悉常见存储与缓存,如
MySQL、Redis、MongoDB、Elasticsearch 等,了解基本的数据清洗、去重和索引优化。
加分项:
* 有自研或主导搭建过大规模分布式爬虫/采集平台的经验;
* 有面向音视频内容的搜索、推荐、内容理解、版权分析等相关项目经验;
* 熟悉 Linux 环境,能够进行基础运维与部署,有 Docker/Kubernetes 经验者优先;
* 在 GitHub、技术博客、社区有技术输出或开源项目经历。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕