职位详情
语音数据-数据架构师
4-7万
北京格鲁特咨询服务有限公司
杭州
5-10年
硕士
04-29
工作地址

海亮大厦

职位描述
职位描述
1.数据资产化顶层设计
构建企业级语音数据资产化技术架构,设计可扩展、高可用的数据存储、处理及服务化体系
制定语音数据全生命周期管理规范,涵盖采集、清洗、标注、存储、治理、应用全链条
建立数据资产目录与元数据管理体系,实现语音数据的标准化描述与价值量化评估
2.技术体系构建
主导PB级语音数据分布式存储架构设计,平衡冷热数据分层存储成本与访问效率
搭建高性能语音数据处理流水线(特征提取/声纹识别/语音转写等),优化GPU资源利用率
构建数据服务API平台,支持语音数据按需调用(如语料检索、声纹验证等场景)
3.数据治理与合规
建立数据安全防护体系,实现语音数据的脱敏处理、访问权限控制及隐私合规审查
制定数据质量评估标准,建立自动化异常检测与修复机制
设计数据血缘追踪系统,满足监管审计要求
职位要求
1.硬性门槛
计算机相关硕士以上学历,5年以上大数据架构经验,主导过千万小时级语音数据处理项目
精通Hadoop/Spark/Flink生态体系,具备Kubernetes云原生架构设计经验
深入理解语音数据处理技术栈(Kaldi/ESPnet等开源框架,声学模型优化经验)
持有CDMP/CISP数据治理认证,熟悉GDPR/《数据安全法》等合规要求
2.差异化能力
具备语音数据特殊场景认知:方言识别中的噪声处理、多语种语料库建设经验
拥有数据资产商业化经验:主导过语音数据API服务变现或训练数据交易项目
技术前瞻性:熟悉联邦学习在语音数据共享中的应用,了解大模型时代的数据治理挑战

以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

立即申请