职位详情
数据治理工程师
6000-12000元
大连畅想云科技有限公司
大连
3-5年
大专
09-12
工作地址

创业大厦火炬路32号

职位描述
岗位职责:
1. 负责互联网数据的定向抓取、清洗与结构化;
2. 设计和实现数据清洗流程,协助产品及业务完成数据融合等数据集成工作;
2. 搭建高效稳定的数据采集系统与调度框架;
3. 对反爬机制进行识别、规避及应对;
4. 定期维护爬虫策略,确保数据持续可用;

岗位要求:
• 精通 Python、Java;
• 精通 SQL 、Scala;
• 熟悉 常用 ETL 工具、Spark、Flink
• 熟悉网页结构(HTML/DOM/XPath/Regex);
• 熟悉代理IP、Cookies管理、Header伪装、验证码识别等反爬机制;
• 具备良好的代码结构意识和日志监控能力;
• 有大型网站(如港交所、雪球、EDGAR、天眼查等)实战抓取经验优先;
• 具备 异步爬虫 / 多线程 / 分布式爬虫开发经验者优先;
• 熟悉 MySQL/MongoDB/Elasticsearch 等任一存储技术。
特殊:
要求3年以上采集/清洗工作实际经验。
要求工作上细致,有自主分析问题,解决问题的能力

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

为您推荐更多相似职位
立即申请