职位详情
中级数据治理工程师(北京)
1-2万
南京开鸿软件技术有限公司
北京
3-5年
本科
10-21
工作地址

黄寺大街1号

职位描述
1、数据治理相关工作经历与经验,3年及以上工作经验;
2、学历专科及以上;
3、数据全流程处理能力掌握程度
精通文本、图像、音频、视频等多模态数据的全流程处理技术,能独立设计多源异构数据的接入方案(如对接API接口、离线文件导入、实时流数据捕获),熟练完成数据格式标准化(如文本JSONL转换、图像分辨率统一、音频采样率校准)与跨模态数据关联(如文本-图像语义匹配、音频-字幕时间轴对齐),能够解决过跨模态数据格式冲突、大文件解析失败等疑难问题,能输出标准化的多模态数据处理流程文档;
4、数据质量管控技能
优秀:精通多模态数据质量评估体系设计,能针对文本(如语义完整性、语法准确性)、图像(如清晰度、色彩真实性)、音频(如信噪比、无杂音时长)等不同模态制定差异化质量指标,开发自动化质量检测工具(如基于NLP的文本质量评分模型、基于CV的图像瑕疵识别脚本),能建立质量监控闭环(从数据采集到输出的全链路质量跟踪),可解决复杂质量问题(如跨模态数据语义不一致、长尾数据质量失衡),输出质量管控报告并指导团队优化数据质量;
5、多模态数据治理工具搭建技能
精通多模态数据治理全链路工具与技术,熟练使用分布式数据处理框架(Spark、Flink)、多模态数据管理平台(如Hudi、Iceberg)、AI辅助治理工具(如基于LLM的文本分类模型、基于CV的图像标注工具)等;
6、多模态数据业务适配能力精通多模态数据与业务场景的适配逻辑,能深入理解不同业务(如多模态生成、跨模态检索、智能交互)对数据的差异化需求,设计针对性的数据治理方案(如为生成式AI项目优化文本-图像配对数据、为检索项目提升跨模态数据索引效率);具备复杂业务场景数据治理经验;

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请