职位详情
爬虫工程师(项目合作)
1.5-3万
美国Selleck生物科技有限公司
上海
3-5年
本科
06-17
工作地址

上海高乘产业园1幢3层

职位描述
职位要求:
1. 精通Python爬虫框架(Scrapy/Selenium/Requests等),熟悉分布式爬虫架构;
2. 掌握反爬破解技术(IP代理池、请求头模拟、JS逆向等);
3. 具备文献平台爬取经验(如Elsevier、知网、PubMed等为佳);
4. 能通过日志分析快速定位爬虫中断原因,制定修复方案。

工作职责
1.开发自动化爬虫程序,从指定学术网站/数据库每日抓取篇文献(PDF);
2.设计防封禁策略,绕过反爬机制(如验证码、IP限制、动态加载等);
3.按项目规范清洗、结构化数据;
4.监控爬虫运行,及时修复因网站改版、规则变动导致的故障;
5.定期提交爬取日志与数据质量报告。

试岗要求(合作前提)
提交可运行的爬虫Demo,证明能稳定实现单日2000篇文献的爬取能力;
目标网站及字段要求将在签约NDA后提供。

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请