语音识别技术
在人机交互的过程中,把音频内说话人所说的内容识别成文字,让机器可以轻松的理解说话人的意图,让机器与人对话成为可能。语音识别技术可以支持多场景,中英双语的语音识别。 中文CER低至2.69%,英文WER低至2.97%,对噪音,混响,远场,干扰都有很强的鲁棒性。
语音合成技术
云从科技语音合成以深度学习算法为技术主体,能将计算机交互中计算机的思考转化为标准的语音流畅的朗读出来。该技术实现了高质量的文字到语音的直接转换,合成语音清晰自然,媲美真人发声,可作为人机交互系统中语音合成的解决方案。该方案无需额外文本控制标记,对于简单文本的语音合成效果细腻自然,主观评分MOS在4.2左右。
麦克风阵列语音信号处理 | 降噪
现实环境中采集到的语音通常会被噪声污染,并且带来识别率的下降。我们的降噪算法可以有效地去除语音信号中的稳态和非稳态噪声。通过深度学习技术,配合我们的语音识别模型进行深度优化,在带来更好的主观听感的同时,显著提升嘈杂环境中的识别率。
麦克风阵列语音信号处理 | 去混响
混响环境在实际环境中普遍存在。混响会在录制的语音中造成语音拖尾现象,导致语音识别系统性能显著下降,尤其是在远场语音识别中更为明显。我们的去混响算法可以有效去除混响环境的影响,增强语音清晰度,并且提升语音识别率。
麦克风阵列语音信号处理 | 回声消除
在语音交互系统中,有时需要在扬声器播放音乐或语音的同时采集使用者的声音,扬声器声音经过声学路径传输后到达麦克风,并且和目标语音信号混合在一起。回声消除模块的作用是将扬声器声音从混合信号中消除掉,恢复出纯净的目标语音。
麦克风阵列语音信号处理 | 波束形成
在远场语音交互场景中,通常存在各种干扰。波束形成算法利用麦克风阵列的指向性特性,对指定目标方向进行远场拾音,形成增强波束得到更清晰的语音,并且抑制非目标方向的干扰语音和噪音。波束形成算法针对我们的语音识别模型进行深度优化,可以显著提高目标方向语音的识别率。