从原理入手，解析基于DSP的汉字语音识别系统的实现方式-模式识别-技术-爱吧机器人网

从原理入手，解析基于DSP的汉字语音识别系统的实现方式

2015-12-08 爱吧机器人网浏览量：

这些带通滤波器的参数是事先计算好的。图2给出了滤波器组的分布图，其中M 选择为26，FFT点数N为256，语音信号的采样频率为8000 Hz。

图2 利用人耳仿生学特性设计的Mel尺度滤波器组

4 测度估计

测度估计技术可以采用动态时间弯折DTW、隐马尔可夫模型HMM或人工神经网ANN等算法，本项目采用国际上最先进的HMM，这样能够比较容易的实现非特定人，而且系统结构也比较灵活、一致。

根据描述的语音单位的大小，HMM可分为：基于整词模型的HMM（Word based HMM）。其优点为可以很好地描述词内音素协同发音的特点，建模过程也较为简单。因此很多小词汇量语音识别系统均采用整词模型HMM。但在大词汇量语音识别中由于所需建立的模型太多而无法使用。

基于子词模型的HMM（Sub Word based HMM）。该类HMM描述的语音单位比词小，如英语语音识别中的基本音素，汉语语音识别中的半音节等。其优点为模型总数少，所以在大词汇量语音识别中得到了广泛的应用。其缺点在于其描述词内协同发音的能力劣于整词模型，但由于子词模型已经得到了非常充分的研究，所以近年来在很多小词表应用识别系统中也用了子词模型。本技术方案采用基于半音节（即声、韵母）的语音建模方法，其识别模型拓扑结构如图3 所示，其中静音HMM采用1个状态，每一声母模型采用2个状态，每一韵母模型采用4个状态。

图3 识别模型拓扑结构

根据输出概率分布的不同，HMM（隐含马尔科夫模型）可分为：

离散HMM（Discrete HMM，DHMM）。其输出概率是基于一套码本的离散概率分布，其优点在于由于实现了存储量和计算量都较小，所需的训练语音也较少，但其矢量量化的过程会造成性能的损失。

连续HMM（Continuous Density HMM，CDHMM）。其输出概率是连续概率密度函数（一般是高斯混合密度函数）。其所需的训练语音较多，模型参数存储量和计算量都较大，在训练语音足够时，其性能优于DHMM。

半连续HMM（Semi Continuous HMM，SCHMM）。SCHMM是DHMM和CDHMM的折衷，与DHMM相似，其输出为一套码本，但每个码字均为一个连续概率密度分布函数，这一点与CDHMM相近。其性能和所需的训练语音等均介于DHMM和CDHMM之间。

考虑到汉语数码语音所需的模型较少，很容易获得足够多的训练语音，因此本技术方案采用了CDHMM为语音模型。

状态输出概率分布为混合高斯密度函数。其各分量计算如下：

总的概率输出即为各分量的加权和：

式中：s表示当前状态；M为混合分量数；u，Σ ，c分别为各混合分量的均值矢量、协方差矩阵和混合分量系数。

该算法利用Viterbi译码的过程进行帧同步的搜索，易于实时实现，也容易纳入语法信息。考虑到系统的实时实现性，本技术方案采用Viterbi译码作为系统的搜索算法。

5 试验结果

在汉语全音节与词组混合的语音识别任务中，得到的初步实验结果为：PC微机浮点算法条件下正确覆盖率不低于98%，定点算法的正确覆盖率不低于97%。DSP嵌入系统定点条件下正确覆盖率不低于96%。系统的响应时间满足实时识别的要求。通过测试组严格的检查及抽样测试，证明上述结果真实可靠，该输入法基本达到实用化要求。

6 结语

语音汉字输入技术的研发是具有重大经济和社会意义的课题，该项目采用孤立语音的全音节和词组的混合识别模式，使用连续概率分布非特定人的声学模型，并辅以多候选的人机交互方式，较好地实现了在移动（便携式）电子设备上资源有限的条件下方便快捷的汉字语音输入。

精选推荐

机器人工程师具体都做什么？

[2017-12-08] 机器人工程师是幕后设计师，负责创建机器人和机器人系统，能够执行人类无法完成或不愿意完成的任务。通过他们的创造，机器人工程师帮助工作更安全，更轻松，更高效，特别是......

智能机器人困惑的时候知道该问什么问题

[2017-03-20] 照片：Nick Dentamaro 布朗大学上周，我们提到了麻省理工学院的一些研究，即通过链接人的大脑来帮助机器人在他们将要犯错误的时 ...

MIT用深度学习处理3D点云数据应用于无人汽车等领域

[2019-10-23] 如果你见过自动驾驶汽车，也许会对车顶上那个一直在旋转的圆柱体感到好奇。这是一个雷达传感器，无人驾驶汽车依靠它在现实世界中进行导航。 ...

新型轻便机器人套装重5kg，辅助跑步和步行

[2019-10-23] 虽然步行对大多数人来说似乎不是负担，但对有些人来说，这项简单的运动往往会让人感到筋疲力尽。比如手术或中风后恢复的患者、帕金森氏症患 ...

通过对抗性图像黑入大脑

[2018-03-02] 在上面的图片中，左边是一张猫的照片。在右边，你能分辨出它是同一只猫的图片，还是一张看起来相似的狗的图片？这两张图片之间的区别在于， ...

美国普渡大学研发快动作软体机器人，灵感来自变色龙舌头捕食

[2019-10-31] 本文图片均来自：Ramses v Martinez 普渡大学变色龙、蝾螈和许多蟾蜍利用积蓄的弹性能量，向距离1 5倍体长的毫无防备的昆虫伸出粘糊糊的舌 ...

可编辑神经网络，有望简化深度学习？

[2019-10-04] 深度学习是一个计算繁重的过程。降低成本一直是 Data curation 的一大挑战。关于深度学习神经网络大功耗的训练过程，已经有研究人员 ...

担心机器换人？自1950年以来只有一个职业被机器彻底取代

[2017-03-21] 虽然有很多关于机器人取代工人的担心，但哈佛经济学家James Bessen的论文指出，在过去的67年里机器人仅仅淘汰掉人类工作中的一个。在1950 ...

本站内容除了特别注明本站原创以外均来自互联网，文章观点不代表本站立场，文章版权归属原作者；如涉及版权问题，请联系[email protected]，我们会立即处理。谢谢配合！

本周栏目热点

在移动互联网上，图像识别Face++可以做什么?

[1970-01-01] 在互联网上，没人知道你是一条狗。这是1993年《纽约客》杂志关于互联网匿名性的经典论述。时光荏苒，二 ...

除了智能手机指纹识别技术还可以用在哪？

[2016-05-07] 4月15日消息，据路透社报道，指纹识别技术可能不久之后就能够用于智能手机以外的地方，如识别用信用卡支付的购物者和地铁通勤者， ...

谷歌语音识别想超过人类，方法是借助神经网络

[1970-01-01] 导语：彭博社今天撰文称，谷歌正在语音识别领域展开野心勃勃的尝试，希望通过技术手段实现超越人类的语 ...

人脸识别未来发展将突破安防应用范畴

[1970-01-01] 生物特征识别技术是目前最为方便、安全的身份识别技术，它辨识的是人身的固有特征，不需要身外的其他标 ...

生物特征识别技术实现原理与前景分析

[1970-01-01] 指纹识别技术前言与传统的身份鉴别方法相比，生物特征识别技术更加安全、保密。这是因为生物特征在某种 ...