职位详情
绝缘AI数据研发工程师(电力行业)
2.4-4万
北京中联太信科技有限公司
北京
3-5年
本科
12-23
工作地址

金长安大厦C座

职位描述

岗位职责:

1. 数据体系与流水线设计:

· 参与设计并实施服务于模型研发的端到端数据解决方案与架构。

· 构建高性能、可扩展、可靠的数据采集、处理、标注与质量管理流水线。

· 制定数据版本管理、血缘追踪和质量监控的标准与规范。

2. 数据处理与开发:

· 开发高效的数据处理、清洗、增强和转换工具与脚本,处理大规模、多模态数据(文本、图像、音频、视频等)。

· 设计和实现自动化数据标注流程,集成智能标注工具,提升标注效率与一致性。

· 开发和维护特征工程管道,支持模型训练与实验的快速迭代。

3. 数据质量与评估:

· 建立数据质量评估体系,制定数据校验规则,监控数据质量指标,确保数据的准确性、一致性和时效性。

· 设计与开发针对具体模型任务的数据评估工具与方法(如构建评测集、分析数据偏差等)。

· 深入分析数据问题对模型性能的影响,并与算法工程师协作进行数据归因与优化。

4. 平台与工具建设:

· 开发或优化内部数据平台/工具,提升数据获取、探索、管理和分发的效率。

· 研究和引入业界先进的AI数据技术、工具与框架,持续提升团队的数据工程能力。

5. 跨团队协作:

· 与算法工程师紧密合作,深刻理解模型需求,提供数据层面的解决方案与洞察。

· 与产品经理、业务方沟通,将业务需求转化为明确、可执行的数据需求与技术方案。


任职资格

必备条件:

1. 教育背景:

· 计算机科学、软件工程、数据科学、人工智能或相关专业,本科及以上学历。

2. 技术能力:

· 编程与工程: 精通Python,熟练掌握SQL。具备扎实的软件工程功底,熟悉代码版本管理、单元测试和CI/CD流程。

· 数据处理框架: 精通至少一种主流大数据处理框架(如Spark, Flink)或数据科学工具链(如Pandas, NumPy),有处理TB级以上数据的经验。

· 数据库与存储: 熟悉常见数据库(关系型、NoSQL)、数据仓库和数据湖技术。

· 机器学习基础: 理解机器学习基本概念和流程(监督/无监督学习、数据划分、评估指标等)。有使用主流ML框架(如PyTorch, TensorFlow)进行数据处理或简单建模的经验者优先。

· 系统设计: 具备设计和开发复杂数据系统或服务的能力,理解高并发、可扩展性、可靠性等系统设计原则。

3. 经验要求:

· 3年以上数据研发、数据工程师或相关岗位经验,其中至少1年专注于AI/机器学习数据领域。

· 有完整参与过至少一个AI项目(从数据准备到模型上线)的数据全流程工作,并取得明确成果。

· 有构建和维护生产环境数据流水线的成功经验。

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请