爱吧机器人网 » 技术 > 模式识别 > 正文

从原理入手,解析基于DSP的汉字语音识别系统的实现方式

语音识别是机器通过识别和理解过程把语音信号转变为相应的文本文件或命令的高技术。作为专门的研究领域,语音识别又是一门交叉学科,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。语音识别经过四十多年的发展,已经显示出巨大的应用前景。本文从实现原理入手,介绍语音识别系统的实现方式。

概述

本汉语语音识别系统是一个非特定人的、孤立音语音识别系统。其中孤立音至少包括汉语的400多个调音节(不考虑声调)以及一些常用的词组。识别系统主要用于手持设备,如手机、掌上电脑。这些设备的CPU一般是DSP,硬件资源十分有限,而且大多不支持浮点运算。那么,对系统各个部分的设计首要考虑的是系统对硬件资源的开销必须尽量的小,不能超过这些设备的限制。硬件资源的开销包括存储模型参数的开销,以及识别过程中对内存、DSP的运行时间的开销。

2 实现流程

一般的语音处理流程图如图1所示。

图1 语音识别系统的处理流图

图1 语音识别系统的处理流图

在语音识别系统中,模拟的语音信号在完成A/D转换后成为数字信号,但时域上的语音信号很难直接用于识别,因此需要从语音信号中提取语音的特征,一方面可以获得语音的本质特征,另一方面也起到数据压缩的作用。输入的模拟语音信号首先要进行预处理,包括预滤波、采样和量化、加窗、端点检测、预加重等。语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到半音节概率的计算和半音节到字概率的计算。

3特征提取

目前通用的特征提取方法是基于语音帧的,即将语音信号分为有重叠的若干帧,对每一帧提取语音特征。由于本技术方案采用的语音库采样率为8 kHz,因此采用帧长为256个采样点(即32 ms),帧步长或帧移(即每一帧语音与上一帧语音不重叠的长度)为80个采样点(即10 ms)。

现有语音识别系统采用的最主要的两种语音特征包括:

线性预测倒谱参数(Linear Prediction Cepstrum Coefficient,LPCC),该特征是基于语音信号为自回归信号的假设,利用线性预测分析获得倒谱参数。LPCC参数的优点是计算量小,对元音有较好的描述能力,其缺点在于对辅音的描述能力较差,抗噪声性能较差。

Mel 频标倒谱参数(Mel Frequency Cepstrum Coefficient,MFCC),该特征考虑了人耳的听觉特性,将频谱转化为基于Mel频标的非线性频谱,然后转换到倒谱域上。由于充分模拟了人的听觉特性,而且没有任何前提假设,MFCC参数具有识别性能和抗噪能力,实验证明在汉语数码语音识别中MFCC 参数的性能明显优于LPCC参数,因此本技术方案采用MFCC参数为语音特征参数。

求MFCC参数的大致过程为:

对输入语音帧加Hamming窗后做快速傅里叶变换(Fast Fourier Transformation,FFT),将时域信号转化为频域信号。

将线性频标转化为Mel频标。转化方法是将频域信号通过24个三角滤波器,其中中心频率在1 000 Hz以上和以下的各12个。滤波器的中心频率间隔特点是在1000Hz以下为线性分布,1 000 Hz以上为等比数列分布。三角滤波器的输出为:

式中:Xk为频谱上第k个频谱点的能量;Yi为第i个滤波器的输出;Fi为第i个滤波器的中心频率。

用离散余弦变换(Discrete Cosine Transformation,DCT)将滤波器输出变换到倒谱域:

式中:p为MFCC参数的阶数,这里取p = 12。{Ck}k = 1,2,…,12即为所求的MFCC参数。

为体现语音的动态特性,在语音特征中加入了一阶差分倒谱,其计算方法如下式所示:

式中下标l与l - k表示第l与l - k帧;m表示第m维。

MFCC参数计算的要点是将线性功率谱S(n)转换成为Mel频率下的功率谱,这需要在计算之前先在语音的频谱范围内设置若干个带通滤波器Hm(n),m= 0,1,2,…,M - 1,n = 0,1,2,…,N/2 - 1。M为滤波器个数,N为一帧语音信号的点数。每个滤波器具有三角形特性,其中心频率为fm,它们在Mel频率轴上是均匀分布的。在线性频率上,当m 较小时相邻的fm间隔很小,随着m的增加相邻的fm间隔逐渐拉开。Mel频率和线性频率的转换关系如下:

上一页12下一页

上一篇:中科院自动化研究所模式识别国家重点实验室-模式识别
下一篇:车用语音识别技术和触摸屏市场增长强劲
精选推荐
全自动膝关节置换手术机器人被美国FDA批准上市
全自动膝关节置换手术机器人被美国FDA批准上市

[2019-10-14]  美国Think Surgical公司已获得美国食品和药物管理局(FDA)的批准,在美国销售用于全膝关节置换(TKA)的TSolution One®全膝关节应用 ...

瑞士研发出微型机器人集群 可像蚂蚁一样互相交流并协同工作
瑞士研发出微型机器人集群 可像蚂蚁一样互相交流并协同工作

[2019-07-12]  EPFL(瑞士联邦理工学院)的研究人员受到了蚂蚁的启发,开发了一款仅有10克重的小型机器人:他们可以相互交流,分配角色并完成复杂的任务。 ...

麻省理工又秀神技:推出如魔法般跳跃的方块机器人集群
麻省理工又秀神技:推出如魔法般跳跃的方块机器人集群

[2019-10-31]  几天前,小编向大家介绍过麻省理工(MIT)研发的一种自组装机器人集群(点此阅览),它们可以用统一标准的小单元自动组装出各种大型结构。 ...

改变保险市场的格局:无人机如何通过更快的估算、响应时间和利益交付来使消费者受益
改变保险市场的格局:无人机如何通过更快的估算、响应时间和利益交付来

[2018-12-08]  市场研究公司IHS Markit预测,到2020年,专业无人机市场将通过农业,能源和建筑等行业利用测量,制图,规划等技术实现77 1%的复合年增长率(CAGR)。与此同时,消费者无人......

通过对抗性图像黑入大脑
通过对抗性图像黑入大脑

[2018-03-02]  在上面的图片中,左边是一张猫的照片。在右边,你能分辨出它是同一只猫的图片,还是一张看起来相似的狗的图片?这两张图片之间的区别在于, ...

人工神经网络技术解码人类行为和想象时的大脑活动信号
人工神经网络技术解码人类行为和想象时的大脑活动信号

[2017-08-23]  为搜索引擎过滤信息,棋盘游戏对弈,识别图像 人工智能在某些任务中远远超过了人类智能。来自弗莱堡由神经科学家私人讲师Tonio Ball博士领导的几个杰出的BrainLinks-Bra......

这个外科手术机器人可以为患者“量身定制”
这个外科手术机器人可以为患者“量身定制”

[2019-07-12]  世界首创,来自澳大利亚机器人视觉研究中心的研究人员正在推动手术机器人的发展边界,他们创造了可定制的、小型化的手术机器人,能够唯一地 ...

人工智能民主化能否实现取决于科技巨头
人工智能民主化能否实现取决于科技巨头

[2017-12-29]  我们经常听到像谷歌和微软这样的公司说他们希望人工智能民主化。这是一个很好的词,民主化。 但这些公司如何界定“民主化”还不清楚,像AI本身一样,它似乎有点炒作的味道...

本周栏目热点

苹果公司收购Regaind人工智能初创公司

[2017-10-01]  要说新一代的iPhone有什么新的黑科技,那么就一定要说到配备在iPhone X身上的人脸识别技术了,可以说,这是目前iPhone的最新也是最为惹人 ...

Facebook信使测试语音转换文字功能

[1970-01-01]   Facebook正在测试一项新的功能,该功能是Facebook信使应用的部分功能,它可以自动将语音信息转换为文字 ...

人脸识别:离生活越来越近

[1970-01-01]   你来到家门口,不用再在包里翻来翻去找钥匙,对着门前的 人脸识别 系统刷脸确认身份,便可进门;在超市 ...

人机交互技术:2015指纹识别将大爆发

[1970-01-01]   各项关于人机交互的技术正在不断发展、日益成熟,明年 指纹识别 技术将得到大爆发。所谓指纹辨识,顾名思 ...

科大讯飞第一季营收1.7亿 中移动成单一大股东

[1970-01-01]   4月24日消息,科大讯飞(股票代码:002230)昨日发布公告,公告显示,科大讯飞2013年第一季度营收1 73 ...