爱吧机器人网 » 技术 > 模式识别 > 正文

基于Julius的机器人语音识别系统构建

语音识别技术应用于机器人系统大多是针对特定的环境,设计出语音命令来进行控制的。只需要对几十个字或词的命令行进语音识别,便可使得原本需要手工操作的工作由语音轻松完成。本文针对现有机器人平台,设计一个非特定人的孤立词语音识别系统。

1 语音识别原理及JuliUS简介

1.1 基于HMM的语音识别原理

语音识别系统是一种模式识别系统,系统首先对语音信号进行分析,得到语音的特征参数,然后对这些参数进行处理,形成标准的模板。这个过程称为训练或学习。当有测试语音进入系统时,系统将对这些语音信号进行处理,然后进行参考模板的匹配,得出结果。此时便完成了语音识别的过程。

目前,HMM作为语音信号的一种统计模型,是语音识别技术的主流建模方法,正在语音处理各个领域中获得广泛的应用。现在许多商用语音软件,以及各种具有优良性能的语音识别系统,都是在此模型上开发的,已经形成了完整的理论框架。

基于HMM模式匹配算法的语音识别系统表现为:在训练阶段,采用HMM训练算法为每一个词条建立一个HMM模型。词条经过反复训练后,将得到的对应HMM模型加入HMM模型库中以数据的形式保存。在匹配阶段,也就是识别阶段,采用HMM匹配算法将输入的未知语音信号与训练阶段得到的模型库中的模型进行匹配,输出语音识别的结果。

1.2 JuliUS简介

Julius是日本京都大学和日本IPA(Information-tech-nology Promotion Agency)联合开发的一个实用高效双通道的大词汇连续语音识别引擎。目前已经能较好地应用于日语和汉语的大词汇量连续的语音识别系统。Julius由纯C语言开发,遵循GPL开源协议,能够运行在Lin-ux、Windows、Mac:OS X、Solaris以及其他Unix平台。Julius最新的版本采用模块化的设计思想,使得各功能模块可以通过参数配置。

Julius的运行需要一个语言模型和一个声学模型。利用Julius,通过结合语言模型和声学模型,可以很方便地建立一个语音识别系统。语言模型包括一个词的发音字典和语法约束。Julius支持的语言模型包括:N-gram模型,以规则为基础的语法和针对孤立词识别的简单单词列表。声学模型必须是以分词为单位且由HMM定义的。

应用程序可以有两种方式与Julius交互:一种是基于套接字的服务器一客户端通信方式,另一种是基于函数库的嵌入方式。在这两种情况下,要识别过程结束,识别结果就被送入应用程序中,应用程序就能得到Julius引擎的现有状态和统计,并可以操作官。Julius概述如图1所示。

a.jpg

2 系统框架

2.1 硬件结构

在语音识别的机器狗控制系统中Atom Z510为训练学习机大脑(1.1 GHz主频的Intel Atom Z510嵌入式控制平台),它主要完成语音识别的功能。PXA270控制器(Intel公司于2003年底推出的性能强劲的PXA27x系列嵌入式处理器,基于ARMv5E的XScale内核,最高频率可达624MHz)作为机器狗本体上的核心智能控制器,接收Atom Z510识别后的结果,发出控制命令。ATmega128控制器(Atmel公司的8位系列单片机中的一种,运行频率16 MHz)完成基于串行总线的数字舵机控制,完成对机器狗的前后腿以及尾巴等关节控制。机器狗硬件结构平台如图2所示。

b.jpg

2.2 软件结构

整个机器人系统包括3个模块:Julius语音识别模块、GUI人机界面、机器人控制模块。Julius将识别的语音命令提交给GUI模块,并在GUI上显示;同时GUI将语音命令转化为动作控制命令并发给机器人控制模块;GUI还可以控制Julius的启动和停止。其中机器人控制模块主要在PXA270上,而语音识别和GUI是在Atom Z510上。系统软件模型如图3所示。

c.jpg

3 语音识别系统构建

一个完整的语音识别系统一般包括3部分:声学模型、语言模型和识别器。在本系统中只建立基于控制命令(动词)的识别语法,其他词忽略,因此没有构建语言模型;识别器采用Julius开源平台,此部分只用配置参数和相关文件。本文主要工作是声学模型训练和语音识别系统构建。

3.1 声学模型训练

声学模型是识别系统的底层模型,是语音识别系统中最关键的一部分,它是每个声学单元的声学模型参数集合。本系统的声学模型是使用HTK对采集的语音库进行多次迭代训练后提取的,基于词的声学特征向量集。HTK(HMM Tools Kit)是由英国剑桥大学工程系的语音视觉和机器人技术工作组(Speech Vision and Robotics Group)开发,专门用于建立和处理HMM的实验工具包,主要应用于语音识别领域,也可用于语音模型的测试和分析。其具体训练步骤如下:

(1)数据准备

收集汉语标准普通话的语料库,并将语料库中的语音标记,创建语音识别单元元素列表文件。

(2)特征提取

本系统采用MFCC进行语音的特征参数提取,训练中将每一个语音文件用工具HCopy转换成MFCC格式。

(3)HMM定义

在训练HMM模型时要给出模型的初始框架,本系统中的HMM模型选择同一个结构,如图4所示。该模型包含4个活动状态{S2,S3,S4,S5),开始和结束(这里是S1.S6),是非发散状态。观察函数bi是带对角矩阵的高斯分布,状态的可能转换由aij表示。

上一页12下一页

上一篇:Siri在iOS 7中有改善 语音识别精度提高
下一篇:语音识别领域的GitHub:Wit.ai让每个公司拥有自己的“Siri”
精选推荐
美国普渡大学研发快动作软体机器人,灵感来自变色龙舌头捕食
美国普渡大学研发快动作软体机器人,灵感来自变色龙舌头捕食

[2019-10-31]  本文图片均来自:Ramses v Martinez 普渡大学变色龙、蝾螈和许多蟾蜍利用积蓄的弹性能量,向距离1 5倍体长的毫无防备的昆虫伸出粘糊糊的舌 ...

机器人iCub作为嵌入式AI的标准机器人研究平台的重要性
机器人iCub作为嵌入式AI的标准机器人研究平台的重要性

[2017-12-24]  机器人的研究在过去10年中得益于一个具有嵌入式人工智能(AI)的标准化开源平台——人形机器人iCub。iCub最初在意大利被创建,如今在欧洲、美国、韩国、新加坡和日本的实验室......

麻省理工学院最新研究:优化软体机器人的控制和设计
麻省理工学院最新研究:优化软体机器人的控制和设计

[2019-11-24]  软体机器人属于一个新的领域,它可能在诸如外科手术等领域发挥重要作用(手术时的纳米机器人需要在人体内部移动而不损伤软组织)。软体机器 ...

这个外科手术机器人可以为患者“量身定制”
这个外科手术机器人可以为患者“量身定制”

[2019-07-12]  世界首创,来自澳大利亚机器人视觉研究中心的研究人员正在推动手术机器人的发展边界,他们创造了可定制的、小型化的手术机器人,能够唯一地 ...

一个让深度学习惨败的通用人工智能领域——语境处理
一个让深度学习惨败的通用人工智能领域——语境处理

[2019-11-04]  Context是指用来解释一段给定文本或语句的来源框架,我们可以翻译为上下文或语境。维基百科将context定义为:*在符号学、语言学、社会学和 ...

MIT研制出可以像植物一样生长的机器人
MIT研制出可以像植物一样生长的机器人

[2019-11-09]  麻省理工学院开发了一种新型机器人,这种机器人可以本质上自我延伸,其生长方式与植物幼苗向上生长的方式惊人相似。值得注意的是,研究人员 ...

人工智能民主化能否实现取决于科技巨头
人工智能民主化能否实现取决于科技巨头

[2017-12-29]  我们经常听到像谷歌和微软这样的公司说他们希望人工智能民主化。这是一个很好的词,民主化。 但这些公司如何界定“民主化”还不清楚,像AI本身一样,它似乎有点炒作的味道...

麻省理工最新机器人“装配工”未来可建造太空基地
麻省理工最新机器人“装配工”未来可建造太空基地

[2019-10-17]  两个机器人原型把一系列小单元组装成大结构体麻省理工学院科研人员最近提出一种新型机器人技术,即一种小型机器人系统,能够自主地用统一规 ...

本周栏目热点

苹果公司收购Regaind人工智能初创公司

[2017-10-01]  要说新一代的iPhone有什么新的黑科技,那么就一定要说到配备在iPhone X身上的人脸识别技术了,可以说,这是目前iPhone的最新也是最为惹人 ...

Facebook信使测试语音转换文字功能

[1970-01-01]   Facebook正在测试一项新的功能,该功能是Facebook信使应用的部分功能,它可以自动将语音信息转换为文字 ...

人脸识别:离生活越来越近

[1970-01-01]   你来到家门口,不用再在包里翻来翻去找钥匙,对着门前的 人脸识别 系统刷脸确认身份,便可进门;在超市 ...

人机交互技术:2015指纹识别将大爆发

[1970-01-01]   各项关于人机交互的技术正在不断发展、日益成熟,明年 指纹识别 技术将得到大爆发。所谓指纹辨识,顾名思 ...

科大讯飞第一季营收1.7亿 中移动成单一大股东

[1970-01-01]   4月24日消息,科大讯飞(股票代码:002230)昨日发布公告,公告显示,科大讯飞2013年第一季度营收1 73 ...