「成都双流区爬虫与数据工程师招聘」_2025年四川业亿辰科技有限公司招聘-智联招聘

职位详情

爬虫与数据工程师

1.2-1.8万

四川业亿辰科技有限公司

成都

5-10年

本科

07-26

工作地址

超图成都大厦1栋

职位描述

职位概要:

负责设计并实现爬虫框架、规范及监控体系，对目标网站内容及附件数据进行采集。对采集数据和文档进行大模型提取的前处理以及后处理，确保数据入库的质量和效率。

岗位职责:

1.数据采集系统开发与维护：

（1）开发维护目标网站数据采集程序和框架（如强化版Scrapy），解决登录验证、令牌加密、IP/频率限制、验证码等复杂反爬挑战；

（2）建设和维护统一采集任务管理监控平台（调度、监控、报警、日志、自动补漏）；

2.数据预处理与后处理：

（1）对原始数据和文档进行预处理，如自动化分类、格式转换、纠错等，满足大模型输入要求；

（2）对大模型输出数据使用算法或模型进行后处理，包括自动化校验与规范化；

3.数据入库和集成协作：

（1）与后端团队协作，设计和实现数据入库、任务调度和推送

任职资格：
1、本科以上学历，计算机、数学、数据科学、统计学相关专业优先。
2、5年以上工作经验，3年以上Python开发和数据处理经验，擅长数据采集（爬虫），熟悉大模型
技术核心：
1、精通Python 及生态，熟悉 pandas, numpy 等数据处理框架.
2、熟悉 Scrapy框架、Requests、BeautifulSoup/lxml
3、熟悉 MySQL/PostgreSQL、MongoDB、Redis 的操作、基础设计与SQL查询
4、熟悉Git的使用
5、熟悉Selenium、Playwright 或 Puppeteer等
6、（加分项）了解 rabbitmq, redis, celery 等分布式任务调度框架
7、（加分项）了解 python async 或多进程多线程高性能开发

以担保或任何理由索取财物，扣押证照，均涉嫌违法，请提高警惕