职位描述
岗位职责
1、参与数据采集平台架构设计和开发工作。
2、构建稳健的抓取任务调度、分布式采集与监控告警体系
3、持续对系统进行架构改造和优化,提升系统的稳定性与可扩展性,保障系统稳定,高效,安全。
4、负责多平台信息爬取。
任职要求
1. 计算机、软件工程、信息管理、数学等相关专业,本科及以上学历。
2. 熟悉 SQL,掌握基本的 SQL 优化技巧。
3. 熟悉 Python 用于数据分析处理,熟悉XPath语法,及逆向编程思维
4. 熟悉 常见数据库(如 MySQL、SQLServer),会基本的建表、索引设计。
5. 了解 Linux 基本命令,能进行数据脚本部署与日志排查。
5. 了解网页前端基础(HTML, CSS, JavaScript),能分析网页结构并提取数据
6. 具备一定的逻辑思维与数据敏感度,能快速理解业务需求。
7. 2年以上相关工作经验。
有如下经验者优先考虑
1. 熟悉 Hadoop/Spark/Flink 等大数据处理框架,有课程/实习项目经验。
2. 熟悉Python的常用框架和库(Flask、Pandas,Scrapy,Feapder,Selenium)。
3. 有数据抓取/数据分析相关实习或项目经验。
4. 熟悉HTTP、TCP/IP等网络通信协议以及数据抓包、分析;有一定的JS逆向能力,能解决普遍的移动端以及网页端加密问题。
5. 能构建稳健的抓取任务调度、分布式采集与监控告警体系
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕