基于Julius的机器人语音识别系统构建-模式识别-技术-爱吧机器人网

基于Julius的机器人语音识别系统构建

2015-12-08 爱吧机器人网浏览量：

语音识别技术应用于机器人系统大多是针对特定的环境，设计出语音命令来进行控制的。只需要对几十个字或词的命令行进语音识别，便可使得原本需要手工操作的工作由语音轻松完成。本文针对现有机器人平台，设计一个非特定人的孤立词语音识别系统。

1 语音识别原理及JuliUS简介

1．1 基于HMM的语音识别原理

语音识别系统是一种模式识别系统，系统首先对语音信号进行分析，得到语音的特征参数，然后对这些参数进行处理，形成标准的模板。这个过程称为训练或学习。当有测试语音进入系统时，系统将对这些语音信号进行处理，然后进行参考模板的匹配，得出结果。此时便完成了语音识别的过程。

目前，HMM作为语音信号的一种统计模型，是语音识别技术的主流建模方法，正在语音处理各个领域中获得广泛的应用。现在许多商用语音软件，以及各种具有优良性能的语音识别系统，都是在此模型上开发的，已经形成了完整的理论框架。

基于HMM模式匹配算法的语音识别系统表现为：在训练阶段，采用HMM训练算法为每一个词条建立一个HMM模型。词条经过反复训练后，将得到的对应HMM模型加入HMM模型库中以数据的形式保存。在匹配阶段，也就是识别阶段，采用HMM匹配算法将输入的未知语音信号与训练阶段得到的模型库中的模型进行匹配，输出语音识别的结果。

1．2 JuliUS简介

Julius是日本京都大学和日本IPA(Information-tech-nology Promotion Agency)联合开发的一个实用高效双通道的大词汇连续语音识别引擎。目前已经能较好地应用于日语和汉语的大词汇量连续的语音识别系统。Julius由纯C语言开发，遵循GPL开源协议，能够运行在Lin-ux、Windows、Mac：OS X、Solaris以及其他Unix平台。Julius最新的版本采用模块化的设计思想，使得各功能模块可以通过参数配置。

Julius的运行需要一个语言模型和一个声学模型。利用Julius，通过结合语言模型和声学模型，可以很方便地建立一个语音识别系统。语言模型包括一个词的发音字典和语法约束。Julius支持的语言模型包括：N-gram模型，以规则为基础的语法和针对孤立词识别的简单单词列表。声学模型必须是以分词为单位且由HMM定义的。

应用程序可以有两种方式与Julius交互：一种是基于套接字的服务器一客户端通信方式，另一种是基于函数库的嵌入方式。在这两种情况下，要识别过程结束，识别结果就被送入应用程序中，应用程序就能得到Julius引擎的现有状态和统计，并可以操作官。Julius概述如图1所示。

2 系统框架

2．1 硬件结构

在语音识别的机器狗控制系统中Atom Z510为训练学习机大脑(1．1 GHz主频的Intel Atom Z510嵌入式控制平台)，它主要完成语音识别的功能。PXA270控制器(Intel公司于2003年底推出的性能强劲的PXA27x系列嵌入式处理器，基于ARMv5E的XScale内核，最高频率可达624MHz)作为机器狗本体上的核心智能控制器，接收Atom Z510识别后的结果，发出控制命令。ATmega128控制器(Atmel公司的8位系列单片机中的一种，运行频率16 MHz)完成基于串行总线的数字舵机控制，完成对机器狗的前后腿以及尾巴等关节控制。机器狗硬件结构平台如图2所示。

2．2 软件结构

整个机器人系统包括3个模块：Julius语音识别模块、GUI人机界面、机器人控制模块。Julius将识别的语音命令提交给GUI模块，并在GUI上显示；同时GUI将语音命令转化为动作控制命令并发给机器人控制模块；GUI还可以控制Julius的启动和停止。其中机器人控制模块主要在PXA270上，而语音识别和GUI是在Atom Z510上。系统软件模型如图3所示。

3 语音识别系统构建

一个完整的语音识别系统一般包括3部分：声学模型、语言模型和识别器。在本系统中只建立基于控制命令(动词)的识别语法，其他词忽略，因此没有构建语言模型；识别器采用Julius开源平台，此部分只用配置参数和相关文件。本文主要工作是声学模型训练和语音识别系统构建。

3．1 声学模型训练

声学模型是识别系统的底层模型，是语音识别系统中最关键的一部分，它是每个声学单元的声学模型参数集合。本系统的声学模型是使用HTK对采集的语音库进行多次迭代训练后提取的，基于词的声学特征向量集。HTK(HMM Tools Kit)是由英国剑桥大学工程系的语音视觉和机器人技术工作组(Speech Vision and Robotics Group)开发，专门用于建立和处理HMM的实验工具包，主要应用于语音识别领域，也可用于语音模型的测试和分析。其具体训练步骤如下：

(1)数据准备

收集汉语标准普通话的语料库，并将语料库中的语音标记，创建语音识别单元元素列表文件。

(2)特征提取

本系统采用MFCC进行语音的特征参数提取，训练中将每一个语音文件用工具HCopy转换成MFCC格式。

(3)HMM定义

在训练HMM模型时要给出模型的初始框架，本系统中的HMM模型选择同一个结构，如图4所示。该模型包含4个活动状态{S2，S3，S4，S5)，开始和结束(这里是S1．S6)，是非发散状态。观察函数bi是带对角矩阵的高斯分布，状态的可能转换由aij表示。

精选推荐

人工神经网络技术解码人类行为和想象时的大脑活动信号

[2017-08-23] 为搜索引擎过滤信息，棋盘游戏对弈，识别图像人工智能在某些任务中远远超过了人类智能。来自弗莱堡由神经科学家私人讲师Tonio Ball博士领导的几个杰出的BrainLinks-Bra......

麻省理工学院最新研究：优化软体机器人的控制和设计

[2019-11-24] 软体机器人属于一个新的领域，它可能在诸如外科手术等领域发挥重要作用（手术时的纳米机器人需要在人体内部移动而不损伤软组织）。软体机器 ...

2018年企业数字化转型的五大趋势

[2017-12-16] 据2016年哈佛商学院研究表明，选择进行数字化转型的企业在3年内表现出了55%的平均毛利润提升，相比之下其他企业毛利润同期降低了37%。数字化转型企业的领头羊，也曾是收入处于......

谷歌宣布搜索算法重大升级，用BERT模型理解用户搜索意图

[2019-10-26] 谷歌刚刚宣布，其搜索引擎的核心算法正在进行一项重大升级，这项升级可能会改变10%的搜索结果排序。此项升级应用了自然语言处理技术（BERT ...

CES 2018：英特尔推出49量子位芯片争夺量子霸权

[2018-01-10] 在与Google、IBM的一场关于建立量子计算系统的马拉松比赛中，英特尔通过了一个关键的里程碑。近日，这个科技巨头已经推出了一个49个量子位 ...

深度神经网络揭示了大脑喜欢看什么

[2019-11-06] 爱吧机器人网编者按：近日，《自然-神经科学》发表了一篇论文，研究人员创建了一种深度人工神经网络，能够准确预测生物大脑对视觉刺激所产 ...

国外眼科手术机器人为视网膜静脉阻塞患者带来希望

[2017-03-20] 视网膜静脉阻塞，简称RVO，对患者来说是一种严重的疾病。该病病因为视网膜静脉中存在血液凝块，这可能导致视力严重下降，在某些情况下，病 ...

担心机器换人？自1950年以来只有一个职业被机器彻底取代

[2017-03-21] 虽然有很多关于机器人取代工人的担心，但哈佛经济学家James Bessen的论文指出，在过去的67年里机器人仅仅淘汰掉人类工作中的一个。在1950 ...

本站内容除了特别注明本站原创以外均来自互联网，文章观点不代表本站立场，文章版权归属原作者；如涉及版权问题，请联系[email protected]，我们会立即处理。谢谢配合！

本周栏目热点

在移动互联网上，图像识别Face++可以做什么?

[1970-01-01] 在互联网上，没人知道你是一条狗。这是1993年《纽约客》杂志关于互联网匿名性的经典论述。时光荏苒，二 ...

人脸识别技术是信息安全的新未来？

[1970-01-01] 你走到一家自助银行前，摄像头通过刷脸，自动识别你的身份为你开门；你站到ATM机前输入密码，再在摄像 ...

谷歌语音识别想超过人类，方法是借助神经网络

[1970-01-01] 导语：彭博社今天撰文称，谷歌正在语音识别领域展开野心勃勃的尝试，希望通过技术手段实现超越人类的语 ...

人脸识别未来发展将突破安防应用范畴

[1970-01-01] 生物特征识别技术是目前最为方便、安全的身份识别技术，它辨识的是人身的固有特征，不需要身外的其他标 ...

生物特征识别技术实现原理与前景分析

[1970-01-01] 指纹识别技术前言与传统的身份鉴别方法相比，生物特征识别技术更加安全、保密。这是因为生物特征在某种 ...