职位描述
岗位职责
- 负责设计和开发分布式网络爬虫系统,参与公开数据数据爬取相关工具平台的架构设计等工作;
- 建立自动化数据采集、清洗和存储管道,满足业务的数据质量要求;
- 监控并维护爬虫系统,及时处理异常和故障,持续优化系统性能和代码迭代;
- 与产品团队和大数据团队紧密合作,确保数据的准确性和及时性。
任职要求
- 要求计算机相关专业本科及以上学历,并具有 3 年以上数据采集或爬虫开发经验;
- 精通 Python 及常用爬虫和数据处理库,熟悉 Scrapy、Playwright 等主流爬虫框架和容器化技术;
- 具备 JS/Android 逆向及网络协议分析能力,能有效应对 UA 检测、IP 限制、验证码等反爬措施;
- 掌握主流 Python Web 框架(如 Django、Flask、FastAPI 等);
- 有分布式爬虫系统实践经验者优先考虑;
- 具备机器学习、深度学习、NLP、数据挖掘、大模型相关经验者优先。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕