职位详情
爬虫工程师
1.2-1.3万
软通动力信息技术(集团)股份有限公司
上海
1-3年
本科
08-14
工作地址

模速空间(SMC)-A区模速空间上海模速空间,上海徐汇区龙台路180号。

职位描述
针对外文语料数据采集工作,目前已经对预训练数据采集、全站数据采集或者文件文档下载类的需求已经开发了采集系统或者采集平台进行需求覆盖。但是由于需求种类多样还有较多类型的采集需求(定向采集,数据字段高定,目标站点反爬比较严重等)数据系统与平台无法进行覆盖需求,需要铺设较多开发人员进行单站点或者单需求进行数据采集研发工作。
岗位描述
1负责大模型相关数据采集,包括不限于海内外文本,图片,音视频数据;
2负责对目标网站或 APP进行反爬突破、协议破解和提取关键数据;
3负责反爬虫策略研究,代理、验证码识别等采集支撑服务建设;
4参与大规模数据处理流程的设计与开发,包括但不限于数据采集、清洗、转换、存储等过程。
服务范围与内容
1服务目标
协助开展各类数据采集业务(包括但不限于预训练数据采集、全站数据采集、文件文档下载等),针对多样化的需求种类,特别是定向采集、高定数据字段以及目标站点反爬严重等情况,提供定制化解决方案。具体包含但不限于以下内容:
1.大模型相关数据采集
o海内外文本、图片、音视频等数据采集
o保证数据多样性及高质量
2.反爬虫策略研究与实施
o深度分析目标网站或 APP
o突破反爬措施(协议破解、代理使用、验证码识别等)
o提供反爬支撑服务建设
3.大规模数据处理流程设计与开发
o数据采集、清洗、转换、存储的全流程实现
o确保数据准确性与可用
1、本科及以上学历,计算机相关专业
2、 1年以上数据采集工作经验
•核心技能
1、精通 JavaScript逆向工程
2、有主流站点 Web端大规模数据采集经验
3、具备多类型验证码处理能力:包括滑块、点选、Google reCAPTCHA、旋转验证码等
4、熟悉 APP脱壳、逆向、反编译及自动化相关技术
5、具备 AST反混淆 JavaScript代码及 JSVMP算法还原能力
•附加技能(优先考虑):具有风控应对经验(如 Akamai并发、Cloudflare等反爬虫策略处理经验)

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请