职位描述
1、负责养老场景语音交互功能的落地实现,基于开源语音模型(如Whisper、Tacotron等),完成老年人方言识别、模糊语音识别的基础优化;
2、搭建养老场景基础语音交互流程,开发用药提醒、简单指令响应等核心功能,实现“语音唤醒-指令执行-语音反馈”的完整闭环;
3、针对养老场景环境特点(如居家噪音、多人交谈),进行基础噪音抑制处理,优化语音识别准确率;
4、负责语音合成(TTS)的基础优化,调整语音语速、语调,定制适配老年人听觉习惯的温和语音风格;
5、配合软件开发工程师,完成语音功能与小程序/APP、智能音箱等设备的集成对接,参与测试、问题修复与迭代,确保功能平稳运行。
1、年龄35周岁内;
2、硕士以上学历,计算机相关专业;
3、3年以上AI语音相关工作或项目经验,熟悉语音识别(ASR)、语音合成(TTS)基础逻辑,有基于开源模型做应用落地的实操案例;
4、熟练掌握Python编程语言,熟悉至少一种语音工具框架(如Kaldi、ESPnet或开源语音SDK),能独立完成模型调用、参数调优与基础功能开发;
5、了解基础的噪音抑制、语音唤醒技术,有方言语音数据处理或适配经验者优先,能解决简单的语音交互适配问题;
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕