任职资格:
1.编程能力: 精通 Python,具备扎实的编程功底和良好的代码规范。
2.爬虫技术:
熟练掌握 Requests, Scrapy, Selenium, Playwright 等至少一种主流爬虫框架/工具。
了解网页解析技术(XPath, CSS Selector, 正则表达式)。
有处理动态渲染.验证码.IP限制等反爬策略的实际经验。
3.数据处理:
熟练使用 Pandas, NumPy 进行数据操作与分析。
熟悉至少一种数据库(SQL如 MySQL/PostgreSQL,或NoSQL如 MongoDB/Redis)。
4.AI/ML 技能:
熟悉主流机器学习框架(如 Scikit-learn, XGBoost/LightGBM)及深度学习框架(如 PyTorch, TensorFlow)。
对机器学习算法(回归.分类.聚类.时序分析等)有扎实理解和应用经验。
岗位职责:
1.数据采集与爬虫开发:
设计并开发高性能.高可用的分布式爬虫系统,高效获取目标数据。
进行爬虫任务的调度.监控与运维优化。
2.数据处理与清洗:
对原始多源异构数据进行清洗.去重.结构化与归一化处理。
构建稳健的数据质量监控与校验流程,确保下游分析的数据可靠性。
设计和维护数据ETL/ELT管道,为模型训练与分析准备高质量数据集。
3.AI Agent 开发与智能系统构建:
基于大语言模型(LLM)或其他AI模型,设计并开发面向特定场景的AI智能体(Agent)。
实现Agent的规划.工具调用.记忆.多模态交互等核心能力。
将Agent集成到业务工作流或产品中,提升自动化与智能化水平。
4.机器学习与大数据分析:
针对业务问题,运用统计学习与机器学习算法进行数据探索.特征工程.模型训练与评估。
开发并部署可扩展的预测.分类.聚类或推荐模型。
利用大数据技术(如Spark.Flink)处理超大规模数据集,进行深度分析与洞察挖掘。