爱吧机器人网 » 技术 > 模式识别 > 正文

对人工智能多点耐心 百度汉语语音识别获重大突破

苹果、微软、谷歌、百度,这些公司或许是提到语音识别,用户脑海里会浮现出的名字。电影《Her》里,主人公西奥多不知不觉地爱上了幽默风趣又善解人意的虚拟女友萨曼莎,尽管后者其实只是人工智能系统的一个化身。

近日举行的中国人机语音交互领域权威的学术会议——全国人机语音通讯学术会议(NCMMSC2015)上,百度透露其在汉语语音识别方面获得重大突破。据悉,百度研发出了基于多层单向LSTM(长短时记忆模型)的汉语声韵母整体建模技术,并成功把连接时序分类(CTC)训练技术嵌入到语音识别传统技术建模框架中。该技术能够使机器的语音识别相对错误率降低15%,使汉语安静环境普通话语音识别的准确率接近97%,未来将大规模应用在百度语音搜索等产品上。

百度CEO李彦宏:加大力度支持去哪儿网

日前,百度语音技术部负责人贾磊媒体专访时称,语音识别和大数据、机器学习、云计算等技术相辅相成,共同推进人工智能发展。

他表示,机器成本、高效计算等问题,是阻碍语音识别技术发展的几个重要因素。而百度研究的CTC模型在解码部分的速度,比传统模型快5倍到10倍。配合专业的深度学习计算硬件,使后台消耗大大降低,有助于实现语音识别技术的大规模普及。

一次框架性创新

百度方面透露,该技术创新是一项框架性的创新。这一突破也标志着,百度在世界范围内率先攻克了在汉语领域使用CTC技术训练单向多层LSTM的高精度建模难题。

据了解,2011年深度学习技术引入语音识别领域,推进整个工业界的人工智能技术应用进入深度学习时代。随后的几年里,CNN(卷积神经网络)、LSTM(长短时记忆模型)、CNN混合LSTM的建模技术在语音识别工业产品中不停涌现,并持续提升语音识别产品效果。

眼下,百度把语音识别的相对错误率降低15%,又会带来何种变化?对用户而言,是识别率更准、识别速度更快。对语音服务提供者来说,成本会降低很多。

“语音识别正处于产业化爆发的边缘,但机器计算成本是一个很大的瓶颈。如果线上50%的搜索都由语音完成,而计算成本还和过去一样,那么没有公司能承担得起。”贾磊表示,语音服务要想大规模普及,必须降低后台服务器开销。

他随即说,百度语音识别研究的CTC模型在解码部分的速度比传统模型快5倍到10倍。配合专业的深度学习计算硬件,当未来语音服务大规模普及时,可以让后台计算成本大大降低。对新技术的追赶,需要大数据、大平台、极致计算等结合做支撑,因此百度这样的公司在未来有优势。

改善方言、口音和远场识别

媒体:既然将把此项技术用到百度语音搜索产品上,对应用时间表、应用前后的产品功能和用户体验差别等,能否讲讲?

贾磊:我预计最早11月末、最迟12月末上线。因为我们做的时候都是比着工业产品的体量去做的,包括模型体积、计算量、训练速度,全部跟工业要求是一致的,所以可以很快应用到产品中去。

用了之后,首先语音识别会更准,其次由于它的计算量会很小,解码速度更快,后台成本就会很低。这个模型对方言和口音的识别效果都有一定的改善,而且对远场识别也有一定改善。因为它是在一个建模单元的十几帧数据中提取出来一帧最本质最有代表性的特征来描述这个建模单元,而这个本质特征的描述不容易随着时间、地点而改变,所以对语音识别的稳定性有很大的提升。

媒体:就您研究观察,未来语音识别技术的发展趋势以及应用场景如何?

贾磊:第一,想解决口音、噪音的问题,训练数据还会继续加大,现在几万个小时训练数据是工业现状,我相信在不久的未来一定是十万小时。如果出现这么大的计算量,对计算能力的需求会更加强烈。所以大数据和高性能计算,是语音识别发展到目前最明显和清晰的趋势。

第二,是基于深度学习的个性化识别。人的口音千差万别,不可能有一个语音识别器识别所有的声音,一定要实现个性化。而这种基于深度学习的个性化识别,一定需要海量的存储空间和很大的数据吞吐传输能力,这个也只有具有大数据和云计算这种服务能力的公司能够提供。

第三个行业趋势,语音识别技术会和语意理解、交互技术等形成一整套语音的解决方案。因为人使用语音的目的不是把语音转成文字,而是使用语音去进行交互,并获得其所需的服务结果。这是未来的工业发展趋势,单纯的脱离了服务、脱离了平台、脱离了计算能力去做语音技术的时代已经过去了。百度有场景、有内容、有需求,语音一定会做得越来越好。

媒体:语音识别技术要和其他技术,比如大数据、机器学习和云计算等一起应用,结合技术层面来讲,现在时机是否成熟?

贾磊:这些技术是相辅相成的。作为人工智能学科的同业者,我的感觉是,短期去看人们倾向于高估技术的价值,从长期去看人们倾向于低估技术的价值。

现在,人们可能倾向于觉得人工智能技术很牛,能够解决一切问题。但是短期内它没有解决,因此人就会产生一个心理,这个技术没用。但是,要对人工智能技术有信心,企业要敢于投入。当然,初期商业上肯定会有一些损失,可能短时间里不会为公司带来商业价值;但长远来看,有助于研发新技术,并获得新的商业突破。(文/娜拉)


上一篇:这项技术能让指纹在黑暗中发光 方便警察取证
下一篇:微软又推“黑科技”:识别人脸喜怒哀乐表情
精选推荐
揭秘达芬奇手术机器人
揭秘达芬奇手术机器人

[2018-04-19]  达芬奇手术系统是由美国Intuitive Surgical公司制造的机器人手术系统。美国食品和药物管理局(FDA)于2000年通过该标准,旨在利用微创手段 ...

智能农业:种地的事儿未来全交给这些机器人吧
智能农业:种地的事儿未来全交给这些机器人吧

[2019-12-07]  SRC公司创始人Sam与温波尔庄园农场经理Callum Weir以及监控机器人Tom总部位于英国的农业科技初创公司SRC(Small Robot Company),正在 ...

如何让人工智能机器人快速自我纠正错误并吃一堑长一智?
如何让人工智能机器人快速自我纠正错误并吃一堑长一智?

[2017-08-23]  莱斯特大学数学系的研究人员在《Neural Networks》杂志上发表了一篇文章,概述了新算法的数学基础,可以使人工智能收集错误报告并立即纠正,而不影响现有技能 ,同时还会积......

MIT最新“人机”互连系统 让双腿机器人复制人体技能
MIT最新“人机”互连系统 让双腿机器人复制人体技能

[2019-11-01]  MIT的小爱马仕想借用你的大脑 ,图片来自: João Ramos爱吧机器人网消息,麻省理工学院(MIT)的研究人员展示了一种新型遥操作系 ...

机器人iCub作为嵌入式AI的标准机器人研究平台的重要性
机器人iCub作为嵌入式AI的标准机器人研究平台的重要性

[2017-12-24]  机器人的研究在过去10年中得益于一个具有嵌入式人工智能(AI)的标准化开源平台——人形机器人iCub。iCub最初在意大利被创建,如今在欧洲、美国、韩国、新加坡和日本的实验室......

机器人灵巧手将成为智能机器人的下一个重大突破
机器人灵巧手将成为智能机器人的下一个重大突破

[2018-01-25]  计算机科学教授兼东北地区助手机器人实验室负责人罗伯特·普拉特(Robert Platt)说:“机器人手操作是下一步要解决的问题。想象一下,一个机器人可以在现实世界中用手去做事......

Waymo:人性和行为心理学才是无人驾驶最大的挑战
Waymo:人性和行为心理学才是无人驾驶最大的挑战

[2019-11-03]  自动驾驶汽车作为AI领域内最大的挑战之一,谷歌致力于其研发已有十余载,现在他们逐渐意识到,最困难的是如何让人们享受驾驶的乐趣。这是一 ...

机器人从工业走向家庭  库卡KUKA目标是引领中国市场
机器人从工业走向家庭 库卡KUKA目标是引领中国市场

[2017-12-08]  机器人正在改变着人们的生活方式,而库卡KUKA想要在中国这个大蛋糕中占有一块大份额,库卡公司正在引领市场...

本周栏目热点

生物识别技术那么多,为啥偏偏“刷脸”火了

[1970-01-01]   你走到一家自助银行前,摄像头通过刷脸,自动识别你的身份为你开门;你站到ATM机前输入密码,再在摄像 ...

NEC人脸识别技术致力服务公共安全

[1970-01-01]   沸沸扬扬的哈尔滨看守所杀警越狱事件随着最后一名案犯的落网而尘埃落定,但是围绕这起案件的深度讨论却 ...

从原理入手,解析基于DSP的汉字语音识别系统的实现方式

[1970-01-01]   语音识别是机器通过识别和理解过程把语音信号转变为相应的文本文件或命令的高技术。作为专门的研究领域 ...

谷歌为何力推虹膜技术 分析其背后的价值链条-模式识别

[2015-12-11]   指纹识别、人脸识别技术正在趋于成熟,也正在被应用到更丰富的场景,逐渐改变我们生活的方方面面。但在 ...

在移动互联网上,图像识别Face++可以做什么?

[1970-01-01]   在互联网上,没人知道你是一条狗。这是1993年《纽约客》杂志关于互联网匿名性的经典论述。时光荏苒,二 ...