信息调研(可接已毕业或即将毕业的应届博士)  
  2.2-2.8万
北京 博士
TBD云集中心-16号楼
岗位职责
1. 设计爬虫策略(如广度优先、深度优先),突破反爬机制(IP封禁、验证码、动态加载)。
2. 使用Scrapy、Requests、Selenium等工具实现数据采集,处理JSON、HTML、XML等格式。
3. 清洗数据(去重、缺失值处理),存储至MySQL、MongoDB、Redis等数据库。
4. 维护爬虫系统稳定性,优化抓取效率(如分布式架构、异步IO)。
5. 整合多源数据(如网络爬虫、公开数据库、内部系统),构建情报分析模型。
6. 使用Python(Pandas、NumPy)、R或SPSS进行统计分析、文本挖掘、关联分析;可视化展示结果(如Tableau、PowerBI),撰写情报报告;监控热点事件(如地缘政治、市场动态),预测趋势。
岗位要求
1. 本科及以上学历;计算机、软件工程、网络与信息安全、人工智能等相关专业毕业;
2. 能独立解决封IP、封账号等问题,优化抓取效率,具备调试能力,快速定位爬虫故障(如网络超时、数据解析错误);
3. 深入理解HTTP/TCP/IP协议,掌握URL结构及请求头构造,需熟悉Linux命令及Shell编程,能部署与维护爬虫系统。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕