职位描述
岗位职责
1、负责大模型监督微调或强化学习所需数据集的分析、制作、收集等工作,并编制形成标准规范文档;
2、负责编制数据处理相关过程资料及成果资料;
3、负责数据处理整个过程管理,包括但不限于需求、质量、进度和风险等的全局把控及问题解决;
4、负责支撑保障数据类项目实施工作。
任职资格
1.计算机科学、人工智能、软件工程、数学、统计学等相关专业,本科及以上学历;
2.熟练掌握 Python/Shell/SQL,至少精通一门编程语言(如 Java/Scala/C++);
3.熟悉 TensorFlow、PyTorch 等深度学习框架,掌握 Hadoop/Spark 等大数据处理工具;
4.熟练使用常用的深度学习框架,如TensorFlow、PyTorch等;
5.具备数据清洗、数据治理、数据管道设计及自动化流程开发经验;
6.熟悉自然语言处理(NLP)、机器学习算法,具备模型优化能力(如数据去重、质量评估等);
7.了解大模型预训练、微调及样本构建方法,熟悉千亿级参数模型的训练流程;
8.具备数据敏感性,能快速定位数据问题并提出改进方案。
9.良好的跨团队协作能力,能与算法工程师、业务部门高效配合。
10.对数据质量有高度责任感,持续跟踪前沿技术(如多模态数据处理)。
加分项:
1.2年以上大模型、NLP 或机器学习相关开发经验,有数据清洗与模型结合的实际案例优先。
2.具备海量数据处理经验,熟悉大模型数据需求分析及测试集设计。
3.具有垂直领域的数据治理或模型落地经验者优先。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕