职位详情
大模型数据工程师
2.5-5万
航天时代低空科技有限公司
杭州
不限
硕士
08-05
工作地址

悦江商业中心

职位描述
职位描述:
我们正在寻找有责任心、具备扎实工程能力的大模型数据工程师,加入低空智能大模型团队,构建和优化大模型数据体系,支撑模型训练、评测和落地全流程的数据需求。你将在数据获取、清洗、标注、管理、合成等多个环节发挥关键作用。
你将负责:
1. 构建支持预训练、微调、评测、生产环境等各阶段的大模型数据体系,包括数据采集、清洗、标注、管理与版本控制;
2. 负责领域高质量语料的挖掘与构建,如问答、多轮对话、Agent任务链等;
3. 搭建高效稳定的数据处理管道与工具,支撑大规模数据的高质量管理与分发;
4. 支持数据合成、数据增强、数据对齐等策略探索,提升数据对模型训练与评估的效果;
5. 与算法、评测、平台团队协作,推动数据驱动的迭代闭环。

任职要求:
1. 硕士及以上学历,计算机、数据科学、人工智能等相关专业,具备良好的数据工程与编码能力;
2. 熟练使用 Python,掌握常用数据处理工具和框架(如Hive、Pandas、Spark、Hadoop等);
3. 熟悉数据清洗、文本预处理、标注流程,了解大模型训练对数据的敏感性;
4. 对数据驱动的AI系统具备整体理解,具备良好的协作能力与执行力。

加分项:
● 有服务于大语言/多模态模型的数据构建经验,如:
○ 指令微调数据(如对话、多轮任务)构建与管理;
○ 评测集(如MMLU、GSM8K、AgentBench)管理与自动生成;
○ 数据合成、过滤、质量评估等实践;
● 熟悉LLM-Agent链式调用或多模态数据处理流程;
● 有大规模数据治理平台、数据标注工具、数据版本管理平台相关经验者优先;
● 有开源数据集贡献、构造工具项目或相关论文者优先。

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请