一、岗位职责
1.负责AI驱动的网络爬虫系统设计、开发与优化,针对不同类型数据源构建高效、稳定的爬取方案,保障数据获取的及时性与准确性。
2.运用机器学习、自然语言处理等AI技术,解决数据处理过程中的内容解析、数据智能清洗与去重合并等问题,提升数据处理效率。
3.负责爬虫数据的AI驱动式后续处理,包括数据结构化提取、质量校验、异常监控及存储管理,为业务端提供高质量的AI训练数据或业务分析数据。
4.与数据分析师、算法工程师、产品经理等团队成员紧密协作,明确数据需求,推动爬虫技术与AI业务场景的深度融合与落地。
二、任职要求
1.计算机科学与技术、软件工程、数据科学、人工智能等相关专业本科及以上学历。
2.熟练掌握Python编程语言,能独立实现AI算法(验证码识别模型、内容分类模型、实体抽取模型、多模态数据解析模型)与爬虫系统的端到端融合开发。
3.具备扎实的AI技术应用能力,熟悉机器学习算法(分类、聚类、回归、深度学习等),掌握主流AI框架(TensorFlow、PyTorch、MindSpore),具备大模型应用能力,熟悉主流大模型API调用流程。
4.具备强烈的责任心、良好的沟通能力和团队协作精神,能够承受项目压力并独立推进任务。
三、加分项
1.有大规模分布式爬虫系统开发或高并发爬虫项目经验,曾处理过亿级数据爬取与处理需求。
2.具备大模型全流程实践经验,曾利用多模态大模型(如GPT-4V、Gemini、通义千问-V)解决爬虫中的图文混合内容解析、复杂验证码识别等问题,或使用强化学习优化爬虫策略,有AI模型部署到生产环境(Docker+K8s)的工程化经验。
3.在爬虫技术、AI数据处理领域有开源项目贡献经验,或发表过相关技术文章。