职位描述
*信华信本社职位,研发岗位,非外包外派
岗位职责:
1. 负责目标网站的数据采集系统设计与开发;
2. 突破反爬机制,保障数据稳定获取;
3. 清洗、存储爬取数据(结构化存储至数据库/文件);
4. 优化爬虫效率与资源占用,监控系统运行状态;
5. Python应用开发。
技能要求:
必需技能:
1. 精通 Python 及爬虫生态库;
2. 深入理解 HTTP协议、反爬策略;
3. 熟练使用 XPath/CSS Selector 解析网页;
4. 掌握数据存储方案(关系型数据库、文件系统等);
5. 具备反爬实战经验。
加分项:
1. 熟悉分布式爬虫或异步框架;
2. 有企业信息、商业数据爬取经验;
3. 日语N3或者英语六级以上能力者优先考虑。
软性要求:
1. 逻辑清晰,能独立分析网站结构与数据链路;
2. 注重代码健壮性,遵守数据合规与法律边界。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕