职位描述
岗位职责:
负责设计和开发高性能、高可用的分布式网络爬虫系统,保障数据采集的效率和稳定性;
使用Elasticsearch构建搜索和分析系统,实现海量数据的快速检索与聚合;
基于MongoDB/Redis设计数据存储方案,优化数据库性能及查询效率;
对接阿里云OSS等对象存储服务,管理非结构化数据资源;
参与LLM(大语言模型)相关项目的开发,包括数据预处理、特征工程及API集成;
持续优化系统架构,解决高并发、分布式场景下的技术难题。
任职要求:
本科及以上学历,计算机相关专业,3年以上Python开发经验;
精通Scrapy/Requests/BeautifulSoup等爬虫框架,熟悉反爬机制破解(验证码识别、IP代理等);
熟练掌握以下至少两种数据库技术:
Elasticsearch(索引设计、分词优化、聚合查询)
MongoDB(副本集、分片集群、聚合管道)
Redis(数据结构、持久化、集群模式)
熟悉阿里云OSS/S3等对象存储服务,了解文件分片上传和CDN加速;
有LLM项目经验者优先(如:LangChain应用、RAG系统开发、Prompt工程等);
熟悉分布式系统设计,了解Celery/Dask等异步任务框架;
良好的编码习惯,能独立完成技术方案设计和文档编写。
加分项:
有千万级数据爬取或处理经验
熟悉Kubernetes/Docker容器化部署
了解机器学习基础算法和框架(PyTorch/TensorFlow)
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕