岗位职责:1.负责海洋专业数据体系的规划与构建,根据实验室海洋大模型研发方向,调研、制定并执行多模态海洋数据集的建设方案与发展路线图。
2.主导大规模、多源异构海洋数据的采集与治理工作。负责对接并集成国内外多样化的数据源,运用多种技术手段获取数据;设计体系化的数据清洗、去噪、格式化与标准化流程,解决数据缺失、异常与不一致问题。
3.构建与优化数据标注体系,设计与海洋领域知识深度结合的数据标注规则与规范;管理数据标注团队或协调标注资源,确保标注工作的效率与质量,为模型训练提供高置信度的监督数据。
4.研发数据管理平台与工具,搭建和维护实验室级海洋数据集管理平台,实现数据版本管理、元数据管理及访问控制;开发自动化数据处理与质检工具,提升数据的整体效率与可靠性。
5.负责数据集的质量评估与效能分析:建立数据集质量评估指标体系,对数据集进行多维度的量化评估与分析;跟踪下游模型性能与数据质量的关联关系,为数据集的迭代优化提供决策依据。