2.2-2.8万
金长安大厦C座
岗位职责:
1. 数据体系与流水线设计:
· 参与设计并实施服务于模型研发的端到端数据解决方案与架构。
· 构建高性能、可扩展、可靠的数据采集、处理、标注与质量管理流水线。
· 制定数据版本管理、血缘追踪和质量监控的标准与规范。
2. 数据处理与开发:
· 开发高效的数据处理、清洗、增强和转换工具与脚本,处理大规模、多模态数据(文本、图像、音频、视频等)。
· 设计和实现自动化数据标注流程,集成智能标注工具,提升标注效率与一致性。
· 开发和维护特征工程管道,支持模型训练与实验的快速迭代。
3. 数据质量与评估:
· 建立数据质量评估体系,制定数据校验规则,监控数据质量指标,确保数据的准确性、一致性和时效性。
· 设计与开发针对具体模型任务的数据评估工具与方法(如构建评测集、分析数据偏差等)。
· 深入分析数据问题对模型性能的影响,并与算法工程师协作进行数据归因与优化。
4. 平台与工具建设:
· 开发或优化内部数据平台/工具,提升数据获取、探索、管理和分发的效率。
· 研究和引入业界先进的AI数据技术、工具与框架,持续提升团队的数据工程能力。
5. 跨团队协作:
· 与算法工程师紧密合作,深刻理解模型需求,提供数据层面的解决方案与洞察。
· 与产品经理、业务方沟通,将业务需求转化为明确、可执行的数据需求与技术方案。
任职资格
必备条件:
1. 教育背景:
· 计算机科学、软件工程、数据科学、人工智能或相关专业,本科及以上学历。
2. 技术能力:
· 编程与工程: 精通Python,熟练掌握SQL。具备扎实的软件工程功底,熟悉代码版本管理、单元测试和CI/CD流程。
· 数据处理框架: 精通至少一种主流大数据处理框架(如Spark, Flink)或数据科学工具链(如Pandas, NumPy),有处理TB级以上数据的经验。
· 数据库与存储: 熟悉常见数据库(关系型、NoSQL)、数据仓库和数据湖技术。
· 机器学习基础: 理解机器学习基本概念和流程(监督/无监督学习、数据划分、评估指标等)。有使用主流ML框架(如PyTorch, TensorFlow)进行数据处理或简单建模的经验者优先。
· 系统设计: 具备设计和开发复杂数据系统或服务的能力,理解高并发、可扩展性、可靠性等系统设计原则。
3. 经验要求:
· 3年以上数据研发、数据工程师或相关岗位经验,其中至少1年专注于AI/机器学习数据领域。
· 有完整参与过至少一个AI项目(从数据准备到模型上线)的数据全流程工作,并取得明确成果。
· 有构建和维护生产环境数据流水线的成功经验。
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕