岗位职责:
1. 负责互联网数据的定向抓取、清洗与结构化;
2. 设计和实现数据清洗流程,协助产品及业务完成数据融合等数据集成工作;
2. 搭建高效稳定的数据采集系统与调度框架;
3. 对反爬机制进行识别、规避及应对;
4. 定期维护爬虫策略,确保数据持续可用;
岗位要求:
• 精通 Python、Java;
• 精通 SQL 、Scala;
• 熟悉 常用 ETL 工具、Spark、Flink
• 熟悉网页结构(HTML/DOM/XPath/Regex);
• 熟悉代理IP、Cookies管理、Header伪装、验证码识别等反爬机制;
• 具备良好的代码结构意识和日志监控能力;
• 有大型网站(如港交所、雪球、EDGAR、天眼查等)实战抓取经验优先;
• 具备 异步爬虫 / 多线程 / 分布式爬虫开发经验者优先;
• 熟悉 MySQL/MongoDB/Elasticsearch 等任一存储技术。
特殊:
要求3年以上采集/清洗工作实际经验。
要求工作上细致,有自主分析问题,解决问题的能力