职位描述
硬性要求:统招学信网可查一本以上学历,硕士。英文4级或6级。985、211高校更好(大学后缀的非一本也可以尝试)
工作时间 7.5小时 8:30-9:00 弹性打卡,9点打卡就18:30后下班 双休; 不内卷
福利待遇: 固定底薪+年终奖 (食堂自助餐模式包中餐、社保公积金按照薪资全额缴纳、公积金比例各6%;年终奖2-3个月 、停车免费、通讯150-200(其他事业单位福利)
工作职责
1、设计并实施高可用的数据采集系统,从多样化的公开及私有源(如网页、代码库、学术论文、书籍等)中合法、合规地获取海量多模态数据。
2、构建和优化自动化数据流水线,利用规则、启发式算法和机器学习模型(如嵌入、聚类、分类)进行数据去重、毒性过滤、质量筛选和内容分类。
3、搭建、维护和优化支持PB级数据存储、处理和分析的高性能、分布式数据平台与流水线(基于Spark, Flink等)。
4、建立严格的数据质量评估体系,通过自动化监控和人工评估相结合,持续迭代提升数据集的质量,并与算法团队协作分析数据对模型性能的影响。
5、与研究人员、算法工程师紧密合作,深入理解模型需求,探索和创新数据处理的技术与方法,以解锁模型的新能力。
工作要求
1、硕士以上学历,计算机相关专业,5年以上开发经验,熟悉合法合规的数据获取机制和方法,熟悉数据过滤清洗、质量提升等算法和流程,有大数据或大模型相关从业经验者优先;
2、熟练掌握java、scala或python等编程语言,拥有spark/hadoop开发经验,深入理解大规模分布式数据处理流程;
3、精通互联网协议、熟悉正则表达式,熟悉数据挖掘和搜索引擎相关知识技能,具备开发网络爬虫、处理网页信息等工作经验;
4、对新技术保持好奇心,同时具有良好的沟通、学习和分析解决问题能力。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕